Fish Audio
Fish Audio S2-Pro 是 Fish Audio 的新一代高表现力文字转语音模型,面向自然语音生成、开放式情绪标签、多人对话、声音克隆和 80 多语言工作流。
Fish Audio 当前推荐新项目使用 s2-pro。S2-Pro 支持自然语言方括号控制,例如 [whispers sweetly] 或 [laughing nervously],支持多人对话,覆盖 80 多种语言,目标首包音频时间为 100ms,并提供基于 SGLang 的开源服务栈。上一代 s1 仍可用于已有集成,在依赖括号式情绪语法的工作流中仍有价值。在 Martini 的 SEO 页面中,Fish Audio 被定位为可与 ElevenLabs、Minimax Speech 等 TTS 系统对比的高表现力语音基础模型;除非另行加入运行时集成,否则它不会出现在 Martini 的真实生成菜单中。
| 变体 | 说明 |
|---|---|
| Fish Audio S2-Pro | 当前推荐模型,支持方括号式自然语言控制、多人对话、80 多种语言和开源服务。 |
| Fish Audio S1 | 上一代 4B 参数模型,支持括号式情绪控制,主要用于已有集成兼容。 |
在 Martini 的无限画布上将 Fish Audio S2 与视频、图像、脚本和音乐节点连接使用。无需 GPU,免费开始。
免费开始Fish Audio 当前推荐新项目使用 s2-pro。它支持自然语言方括号控制、多人对话、80 多种语言、低首包音频时间和开源服务栈。S1 仍可用于已有集成。
这个页面是 SEO 和对比页面。本次改动没有把 Fish Audio 加入 Martini 的生产音频生成菜单;那需要单独实现 provider runtime、计费、UI 控件和 webhook 处理。
Fish Audio S2 更强调开源服务、灵活的方括号控制和自托管选项。ElevenLabs 更强调成熟的托管声音生态、Eleven v3 表现力、Multilingual v2 稳定性和文本生成音效。