Fish Audio

如何使用 Fish Audio S2-Pro 用 AI 克隆声音

Fish Audio S2-Pro 是 ElevenLabs 克隆的开源替代方案，有两个真正的差异：提示词内的自然语言方括号控制（[whispering]、[laughing nervously]、[pause]）和你可以自托管的开源服务栈。声音克隆需要干净的参考音频样本加上匹配的转写——Fish Audio 用转写文本消除音素歧义，因此错位的转写比在 ElevenLabs 上更损害克隆质量。覆盖 80+ 语言并自动检测。关键：只克隆你拥有或获得明确书面许可的声音。Fish Audio 是开源的，意味着同意执行在你手上而非平台——上传参考音频之前明确权利清算。

免费试用 Fish Audio S2-Pro

分步指南

获取授权并准备转写对齐的参考

在上传前记录声音权利。Fish Audio S2-Pro 是开源的，因此同意责任在你身上——为任何非你自己的声音保留书面许可。然后准备参考：30+ 秒干净语音（无背景音乐、无第二说话人、首选 44.1kHz WAV）和与所说内容完全匹配的逐字转写。Fish Audio 在克隆期间用转写对齐音素；说"we will"而音频实际说"we'll"的转写引入小的对齐错误，在你生成较长脚本时会累积。如果你没有转写，先通过 STT 模型运行音频，然后校对。

添加音频节点并加载 Fish Audio S2-Pro

添加音频节点，从模型选择器选择 Fish Audio S2-Pro，上传参考音频 + 转写配对。模型返回一个克隆的声音 ID，你可以在项目所有音频节点中重用。注意：Fish Audio 在 Martini 中目前定位为 SEO 比较界面——模型存在于 Martini 的注册表中，与 ElevenLabs、MiniMax 等并列，但生产运行时集成取决于你的工作区配置。如果你的工作区没有连接 Fish Audio 运行时，生产回退到 ElevenLabs，Fish Audio 用于 Martini 之外的自托管实验。

用方括号风格自然语言标签指导演绎

Fish Audio S2-Pro 最大的差异是开放式方括号控制。不是固定 token 列表，你可以写 [whispering sweetly]、[laughing nervously]、[pause for two seconds]、[angry whisper]——方括号内的自然语言，放在演绎应该变化的确切词上。保持方括号提示局部：词附近的标签影响那个词和紧邻短语，而非段落其余部分。与 ElevenLabs 的固定内联标签集（[whispers]、[laughs]、[excited]）对比：Fish Audio 给你更广的表达范围，代价是解读稍欠可预测性。投入长篇脚本之前测试 2-3 个演绎。

在同一脚本上比较 Fish Audio 和 ElevenLabs

高风险内容，将 Fish Audio S2-Pro 音频节点和 ElevenLabs Eleven v3 音频节点并排放在画布上，两者都用克隆的声音朗读同一脚本。比较通常很有启发：ElevenLabs 在英语情感表达上更精致更自信，而 Fish Audio 更灵活处理开放式情绪标签且无需单独换模型即可覆盖更多语言。许多制作团队用 Fish Audio 做原型录制和多语言实验，然后在 ElevenLabs 上交付发布版本。共享画布意味着你不必离开 Martini 即可运行比较。

提示词示例

使用克隆主持人声音的课程介绍——方括号提示放在演绎应该转变的确切位置。与 ElevenLabs Eleven v3（固定标签）的同一行对比，看 Fish Audio 更广的表达范围。

[calmly] Welcome to the studio. [pause] Today, [thoughtfully] we're going to look at three patterns that show up again and again — [emphasizing] every single time — in successful product launches.

使用 Fish Audio S2-Pro 说话人标签的多说话人对话。每个说话人可以是不同的克隆声音，全部在一个音频节点中。主持人轮次内的 [curious] 提示仅指导该行的演绎。

[Speaker:Host] Hey, thanks for joining us. [Speaker:Guest] Happy to be here. [Speaker:Host] [curious] So tell me — what made you start this project?

参数技巧

参考音频 + 转写配对是单一最大的质量控制杆。错位的转写（音频说"we'll"而转写写"we will"）在长生成中累积音素错误。

方括号提示是开放式自然语言：[whispering sweetly]、[laughing nervously]、[pause for two seconds]。局部放置（紧邻词）给出最可预测的结果。

Fish Audio 覆盖 80+ 语言并自动检测——同一克隆声音在英语、普通话、日语或西班牙语之间无需切换模型变体。

开源服务意味着如果需要可以在 Martini 外自托管——对于敏感声音内容你不希望音频离开你的基础设施时有用。

对于使用括号情绪语法的 S1 旧提示词，切换到 S2-Pro 的方括号语法。旧的（excited）提示词必须重写为 [excited] 才能与新模型工作。

输出预期

Fish Audio S2-Pro 声音克隆是开源选择——更广的语言覆盖、通过自然语言方括号更灵活的情绪控制、可自托管的基础设施。与 ElevenLabs 的权衡：英语情感表达精致度较弱、方括号提示解读稍欠可预测性、同意责任在你手上（无平台级声音验证）。单声音生产级英语旁白，ElevenLabs Eleven v3 是更安全的选择。多语言项目、声音原型、自托管部署或需要超越固定集合的自然语言情绪标签的工作流，Fish Audio S2-Pro 值得权衡。Martini 画布让你在同一脚本上 A/B 测试两者而无需切换工具。

在 Martini 上使用 Fish Audio S2-Pro

在 Martini 的无限画布上将 Fish Audio S2-Pro 与其他 AI 模型连接使用。无需 GPU，免费开始。

免费开始

文档

nodes/audio

其他模型教程

ElevenLabs

ElevenLabs Eleven v3

ElevenLabs 提供两档声音克隆，直接对应你手上的参考音频量。即时声音克隆 (IVC) 用 10 秒样本即可训练，几秒内可用——适合内部旁白草稿、原型配音和个人视频旁白。专业声音克隆 (PVC) 需要 30+ 分钟干净录音棚音频，但生成的声音可以承担整个课程或有声书而不漂移。在 Martini 上，两种模式都接入 Eleven v3（或非英语工作选 Multilingual v2），声音注册后即可在 70+ 语言中带内联情绪标签生成新旁白。关键：只克隆你拥有或获得明确书面许可的声音。ElevenLabs 对自己的声音要求声音验证，无论平台是否强制执行，授权都很重要。

查看教程

如何用 AI 克隆声音

Fish Audio

如何使用 Fish Audio S2-Pro 用 AI 克隆声音

免费试用 Fish Audio S2-Pro

分步指南

获取授权并准备转写对齐的参考

添加音频节点并加载 Fish Audio S2-Pro

用方括号风格自然语言标签指导演绎

在同一脚本上比较 Fish Audio 和 ElevenLabs

提示词示例

[Speaker:Host] Hey, thanks for joining us. [Speaker:Guest] Happy to be here. [Speaker:Host] [curious] So tell me — what made you start this project?

参数技巧

参考音频 + 转写配对是单一最大的质量控制杆。错位的转写（音频说"we'll"而转写写"we will"）在长生成中累积音素错误。

方括号提示是开放式自然语言：[whispering sweetly]、[laughing nervously]、[pause for two seconds]。局部放置（紧邻词）给出最可预测的结果。

Fish Audio 覆盖 80+ 语言并自动检测——同一克隆声音在英语、普通话、日语或西班牙语之间无需切换模型变体。

开源服务意味着如果需要可以在 Martini 外自托管——对于敏感声音内容你不希望音频离开你的基础设施时有用。

对于使用括号情绪语法的 S1 旧提示词，切换到 S2-Pro 的方括号语法。旧的（excited）提示词必须重写为 [excited] 才能与新模型工作。

输出预期

在 Martini 上使用 Fish Audio S2-Pro

在 Martini 的无限画布上将 Fish Audio S2-Pro 与其他 AI 模型连接使用。无需 GPU，免费开始。

免费开始

文档

nodes/audio

其他模型教程

ElevenLabs

ElevenLabs Eleven v3

查看教程

如何用 AI 克隆声音

如何使用 Fish Audio S2-Pro 用 AI 克隆声音

分步指南

获取授权并准备转写对齐的参考

添加音频节点并加载 Fish Audio S2-Pro

用方括号风格自然语言标签指导演绎

在同一脚本上比较 Fish Audio 和 ElevenLabs

提示词示例

参数技巧

输出预期

在 Martini 上使用 Fish Audio S2-Pro

相关功能

文档

延伸阅读

其他模型教程

ElevenLabs Eleven v3

本网站使用 Cookie

如何使用 Fish Audio S2-Pro 用 AI 克隆声音

分步指南

获取授权并准备转写对齐的参考

添加音频节点并加载 Fish Audio S2-Pro

用方括号风格自然语言标签指导演绎

在同一脚本上比较 Fish Audio 和 ElevenLabs

提示词示例

参数技巧

输出预期

在 Martini 上使用 Fish Audio S2-Pro

相关功能

文档

延伸阅读

其他模型教程

ElevenLabs Eleven v3