Fish Audio
Fish Audio S2-Pro 是 ElevenLabs 克隆的开源替代方案,有两个真正的差异:提示词内的自然语言方括号控制([whispering]、[laughing nervously]、[pause])和你可以自托管的开源服务栈。声音克隆需要干净的参考音频样本加上匹配的转写——Fish Audio 用转写文本消除音素歧义,因此错位的转写比在 ElevenLabs 上更损害克隆质量。覆盖 80+ 语言并自动检测。关键:只克隆你拥有或获得明确书面许可的声音。Fish Audio 是开源的,意味着同意执行在你手上而非平台——上传参考音频之前明确权利清算。
在上传前记录声音权利。Fish Audio S2-Pro 是开源的,因此同意责任在你身上——为任何非你自己的声音保留书面许可。然后准备参考:30+ 秒干净语音(无背景音乐、无第二说话人、首选 44.1kHz WAV)和与所说内容完全匹配的逐字转写。Fish Audio 在克隆期间用转写对齐音素;说"we will"而音频实际说"we'll"的转写引入小的对齐错误,在你生成较长脚本时会累积。如果你没有转写,先通过 STT 模型运行音频,然后校对。
添加音频节点,从模型选择器选择 Fish Audio S2-Pro,上传参考音频 + 转写配对。模型返回一个克隆的声音 ID,你可以在项目所有音频节点中重用。注意:Fish Audio 在 Martini 中目前定位为 SEO 比较界面——模型存在于 Martini 的注册表中,与 ElevenLabs、MiniMax 等并列,但生产运行时集成取决于你的工作区配置。如果你的工作区没有连接 Fish Audio 运行时,生产回退到 ElevenLabs,Fish Audio 用于 Martini 之外的自托管实验。
Fish Audio S2-Pro 最大的差异是开放式方括号控制。不是固定 token 列表,你可以写 [whispering sweetly]、[laughing nervously]、[pause for two seconds]、[angry whisper]——方括号内的自然语言,放在演绎应该变化的确切词上。保持方括号提示局部:词附近的标签影响那个词和紧邻短语,而非段落其余部分。与 ElevenLabs 的固定内联标签集([whispers]、[laughs]、[excited])对比:Fish Audio 给你更广的表达范围,代价是解读稍欠可预测性。投入长篇脚本之前测试 2-3 个演绎。
高风险内容,将 Fish Audio S2-Pro 音频节点和 ElevenLabs Eleven v3 音频节点并排放在画布上,两者都用克隆的声音朗读同一脚本。比较通常很有启发:ElevenLabs 在英语情感表达上更精致更自信,而 Fish Audio 更灵活处理开放式情绪标签且无需单独换模型即可覆盖更多语言。许多制作团队用 Fish Audio 做原型录制和多语言实验,然后在 ElevenLabs 上交付发布版本。共享画布意味着你不必离开 Martini 即可运行比较。
使用克隆主持人声音的课程介绍——方括号提示放在演绎应该转变的确切位置。与 ElevenLabs Eleven v3(固定标签)的同一行对比,看 Fish Audio 更广的表达范围。
[calmly] Welcome to the studio. [pause] Today, [thoughtfully] we're going to look at three patterns that show up again and again — [emphasizing] every single time — in successful product launches.
使用 Fish Audio S2-Pro 说话人标签的多说话人对话。每个说话人可以是不同的克隆声音,全部在一个音频节点中。主持人轮次内的 [curious] 提示仅指导该行的演绎。
[Speaker:Host] Hey, thanks for joining us. [Speaker:Guest] Happy to be here. [Speaker:Host] [curious] So tell me — what made you start this project?
参考音频 + 转写配对是单一最大的质量控制杆。错位的转写(音频说"we'll"而转写写"we will")在长生成中累积音素错误。
方括号提示是开放式自然语言:[whispering sweetly]、[laughing nervously]、[pause for two seconds]。局部放置(紧邻词)给出最可预测的结果。
Fish Audio 覆盖 80+ 语言并自动检测——同一克隆声音在英语、普通话、日语或西班牙语之间无需切换模型变体。
开源服务意味着如果需要可以在 Martini 外自托管——对于敏感声音内容你不希望音频离开你的基础设施时有用。
对于使用括号情绪语法的 S1 旧提示词,切换到 S2-Pro 的方括号语法。旧的(excited)提示词必须重写为 [excited] 才能与新模型工作。
Fish Audio S2-Pro 声音克隆是开源选择——更广的语言覆盖、通过自然语言方括号更灵活的情绪控制、可自托管的基础设施。与 ElevenLabs 的权衡:英语情感表达精致度较弱、方括号提示解读稍欠可预测性、同意责任在你手上(无平台级声音验证)。单声音生产级英语旁白,ElevenLabs Eleven v3 是更安全的选择。多语言项目、声音原型、自托管部署或需要超越固定集合的自然语言情绪标签的工作流,Fish Audio S2-Pro 值得权衡。Martini 画布让你在同一脚本上 A/B 测试两者而无需切换工具。
在 Martini 的无限画布上将 Fish Audio S2-Pro 与其他 AI 模型连接使用。无需 GPU,免费开始。
免费开始