Fish Audio

Fish Audio S2

Fish Audio S2-Pro 是 Fish Audio 的新一代高表现力文字转语音模型，面向自然语音生成、开放式情绪标签、多人对话、声音克隆和 80 多语言工作流。

Fish Audio 当前推荐新项目使用 s2-pro。S2-Pro 支持自然语言方括号控制，例如 [whispers sweetly] 或 [laughing nervously]，支持多人对话，覆盖 80 多种语言，目标首包音频时间为 100ms，并提供基于 SGLang 的开源服务栈。上一代 s1 仍可用于已有集成，在依赖括号式情绪语法的工作流中仍有价值。在 Martini 的 SEO 页面中，Fish Audio 被定位为可与 ElevenLabs、Minimax Speech 等 TTS 系统对比的高表现力语音基础模型；除非另行加入运行时集成，否则它不会出现在 Martini 的真实生成菜单中。

免费试用 Fish Audio S2

Fish Audio S2 变体

变体	说明
Fish Audio S2-Pro	当前推荐模型，支持方括号式自然语言控制、多人对话、80 多种语言和开源服务。
Fish Audio S1	上一代 4B 参数模型，支持括号式情绪控制，主要用于已有集成兼容。

支持的功能

文本转语音

多人对话

音效生成

声音克隆

音乐生成

多语言

最适合

带自然语言情绪和演绎提示的高表现力配音
多人对话和角色音频原型
需要开源服务和微调选项的开发者
需要直接参考声音的声音克隆工作流
覆盖广泛语言的多语言音频实验

优势

S2-Pro 是 Fish Audio 当前推荐给新项目的模型
开放式方括号控制比固定情绪 token 列表更灵活
多人对话是 Fish Audio TTS API 中 S2-Pro 独有能力
支持 80 多种语言并自动识别语言
开源模型与服务栈降低了具备自托管能力团队的供应商锁定

局限性

在加入生产运行时集成之前，Fish Audio 在 Martini 中仅作为 SEO 内容展示
S2-Pro 使用不同于 S1 的方括号语法，旧的括号式提示词可能需要改写
自托管和微调需要基础设施与音频工程投入
声音质量仍依赖清晰参考音频、准确转写和提示词控制

使用技巧

新的 Fish Audio 项目优先使用 s2-pro；s1 主要用于旧提示词或兼容性测试。

把方括号提示放在局部：在演绎需要变化的位置插入 [whispering]、[pause]、[laughing nervously] 等标签。

做对话时使用明确的 speaker 标签，并保持每个轮次短到可以快速检查和重生成。

做声音克隆时，先准备清晰参考音频和匹配转写，再优化提示词风格。

需要高表现力对话时可将 Fish Audio 与 Eleven v3 对比；需要长篇稳定性时则与 Multilingual v2 对比。

在 Martini 上使用 Fish Audio S2

在 Martini 的无限画布上将 Fish Audio S2 与视频、图像、脚本和音乐节点连接使用。无需 GPU，免费开始。

免费开始

常见问题

Fish Audio 当前最新的 TTS 模型是什么？

Fish Audio 当前推荐新项目使用 s2-pro。它支持自然语言方括号控制、多人对话、80 多种语言、低首包音频时间和开源服务栈。S1 仍可用于已有集成。

Fish Audio S2 是否已经可以在 Martini 中生成？

这个页面是 SEO 和对比页面。本次改动没有把 Fish Audio 加入 Martini 的生产音频生成菜单；那需要单独实现 provider runtime、计费、UI 控件和 webhook 处理。

Fish Audio 和 ElevenLabs 的区别是什么？

Fish Audio S2 更强调开源服务、灵活的方括号控制和自托管选项。ElevenLabs 更强调成熟的托管声音生态、Eleven v3 表现力、Multilingual v2 稳定性和文本生成音效。

操作指南

Fish Audio S2

Fish Audio S2-Pro 是 Fish Audio 的新一代高表现力文字转语音模型，面向自然语音生成、开放式情绪标签、多人对话、声音克隆和 80 多语言工作流。

免费试用 Fish Audio S2

Fish Audio S2 变体

变体	说明
Fish Audio S2-Pro	当前推荐模型，支持方括号式自然语言控制、多人对话、80 多种语言和开源服务。
Fish Audio S1	上一代 4B 参数模型，支持括号式情绪控制，主要用于已有集成兼容。

支持的功能

文本转语音

多人对话

音效生成

声音克隆

音乐生成

多语言

最适合

带自然语言情绪和演绎提示的高表现力配音
多人对话和角色音频原型
需要开源服务和微调选项的开发者
需要直接参考声音的声音克隆工作流
覆盖广泛语言的多语言音频实验

优势

S2-Pro 是 Fish Audio 当前推荐给新项目的模型
开放式方括号控制比固定情绪 token 列表更灵活
多人对话是 Fish Audio TTS API 中 S2-Pro 独有能力
支持 80 多种语言并自动识别语言
开源模型与服务栈降低了具备自托管能力团队的供应商锁定

局限性

在加入生产运行时集成之前，Fish Audio 在 Martini 中仅作为 SEO 内容展示
S2-Pro 使用不同于 S1 的方括号语法，旧的括号式提示词可能需要改写
自托管和微调需要基础设施与音频工程投入
声音质量仍依赖清晰参考音频、准确转写和提示词控制

使用技巧

新的 Fish Audio 项目优先使用 s2-pro；s1 主要用于旧提示词或兼容性测试。

把方括号提示放在局部：在演绎需要变化的位置插入 [whispering]、[pause]、[laughing nervously] 等标签。

做对话时使用明确的 speaker 标签，并保持每个轮次短到可以快速检查和重生成。

做声音克隆时，先准备清晰参考音频和匹配转写，再优化提示词风格。

需要高表现力对话时可将 Fish Audio 与 Eleven v3 对比；需要长篇稳定性时则与 Multilingual v2 对比。

在 Martini 上使用 Fish Audio S2

在 Martini 的无限画布上将 Fish Audio S2 与视频、图像、脚本和音乐节点连接使用。无需 GPU，免费开始。

免费开始

常见问题

Fish Audio 当前最新的 TTS 模型是什么？

Fish Audio 当前推荐新项目使用 s2-pro。它支持自然语言方括号控制、多人对话、80 多种语言、低首包音频时间和开源服务栈。S1 仍可用于已有集成。

Fish Audio S2 是否已经可以在 Martini 中生成？

这个页面是 SEO 和对比页面。本次改动没有把 Fish Audio 加入 Martini 的生产音频生成菜单；那需要单独实现 provider runtime、计费、UI 控件和 webhook 处理。

Fish Audio 和 ElevenLabs 的区别是什么？

Fish Audio S2

Fish Audio S2 变体

支持的功能

最适合

优势

局限性

使用技巧

在 Martini 上使用 Fish Audio S2

常见问题

相关功能

操作指南

延伸阅读

相关音频模型

ElevenLabs

本网站使用 Cookie

Fish Audio S2

Fish Audio S2 变体

支持的功能

最适合

优势

局限性

使用技巧

在 Martini 上使用 Fish Audio S2

常见问题

相关功能

操作指南

延伸阅读

相关音频模型

ElevenLabs