Fish Audio
Fish Audio S2-Pro 的多说话人对话模式在 Fish Audio 系列中是 S2-Pro 独有的——较旧的 S1 不支持。使用 [Speaker:Name] 语法为不同说话人分配不同声音,带有自然语言方括号提示如 [whispering]、[laughing nervously] 或 [pause two seconds] 指导每行演绎。覆盖 80+ 语言,相同声音 ID 上自动检测,这使 Fish Audio 成为多语言对话场景(例如以英语 + 普通话 + 日语发布的音频剧)或需要超越 ElevenLabs 固定内联标签集的表达范围的场景的最强选择。开源服务意味着你可以为敏感或预发布内容在 Martini 之外自托管对话生成。
Fish Audio S2-Pro 在三种特定情况下比 ElevenLabs Dialogue v3 更合适:(1) 对话以多种语言发布——Fish Audio 用相同声音 ID 处理 80+ 语言,无需单独换模型;(2) 你需要超越 ElevenLabs 固定 [whispers] / [laughs] / [excited] / [sighs] / [pause] 集的自然语言情绪提示——例如 [conspiratorial whisper]、[nervous chuckle]、[exhausted sigh];(3) 为敏感内容在 Martini 之外的自托管基础设施。纯英语脚本动画中精致度最重要,ElevenLabs Dialogue v3 是更安全的默认。
在写场景之前为每个角色选择或克隆一个声音。然后用明确说话人标签格式化脚本:[Speaker:Cole]、[Speaker:Mira]、[Speaker:Captain]。每行前缀其说话人;模型用这些标签在说话人边界切换声音 ID。保持轮次简短(1-3 句),轮次之间使用换行。打断时,以破折号结束轮次,让下一个说话人立即接上。声音同意:如果你为角色克隆了声音而非使用预制的,为每个记录书面许可——Fish Audio 是开源的,因此同意执行在你手上。
Fish Audio S2-Pro 的开放式方括号提示让你用自己的话描述演绎:[conspiratorial whisper]、[exhausted sigh]、[pause for two seconds]、[nervous chuckle]。将每个提示紧邻它应影响的词,限定到一个说话人的行。与 ElevenLabs 的固定标签集对比:Fish Audio 的开放式方括号给出更广的表达范围;代价是解读稍欠可预测性。对于带有微妙情感渐变的场景(角色在三行中从平静到怀疑到警觉),Fish Audio 的描述性提示比固定 [excited] / [angry] 标签更贴近。在锁定场景前每个情感节拍测试 2-3 个演绎。
Fish Audio 的 80+ 语言支持在多语言对话中大放异彩。用英语脚本构建场景画布一次,然后复制画布并翻译脚本——保持相同的 [Speaker:Name] 结构和相同声音 ID。Fish Audio 在所有语言版本中使用相同克隆(或预制)声音,因此每个角色的声音身份在英语、普通话、日语或西班牙语版本中保持一致。画布即模板模式意味着你从一个源画布发布多语言音频剧而无需为每个版本重建角色声音。注意:Fish Audio 在 Martini 中目前是 SEO 定位的——生产运行时取决于工作区配置;如果 Fish Audio 未连接,回退到 ElevenLabs Multilingual v2 用于多语言工作流。
使用 Fish Audio 方括号提示的双角色审讯场景。[skeptically, leaning in] 和 [nervous whisper] 提示用自然语言描述演绎——比 ElevenLabs 固定标签允许的范围更广。
[Speaker:Cole] So you were home all night? [Speaker:Mira] [pause for two seconds] Yes. With my sister. [Speaker:Cole] [skeptically, leaning in] And she'll vouch for that? [Speaker:Mira] [nervous whisper] She has to.
相同三角色场景以普通话渲染——Fish Audio 在语言间使用相同声音 ID,因此每个角色的声音身份在英语和普通话版本之间保持相同。
[Speaker:Captain] 任务控制,状态检查。 [Speaker:Engineer] [excited] 所有系统正常! [Speaker:Pilot] 准备好了,船长。 [Speaker:Captain] [confidently] 出发吧。
多说话人对话在 Fish Audio 系列中是 S2-Pro 独有的——S1 不支持 [Speaker:Name] 标签。任何带两个或以上角色的场景保持在 S2-Pro 上。
开放式方括号提示([conspiratorial whisper]、[exhausted sigh])给出比 ElevenLabs 固定标签更广的表达范围但解读稍欠可预测性。在投入前测试。
80+ 语言中相同声音 ID 意味着多语言音频剧在英语、普通话、日语等之间保持一致角色声音。构建一次,按版本翻译脚本。
自托管服务可用于敏感或预发布对话内容,你不希望音频离开你的基础设施。
动画短片,按角色拆分渲染的音频并将每个轨道馈送到 Martini 画布上单独的唇形同步节点(OmniHuman 或 Kling Avatar)。
Fish Audio S2-Pro 多说话人对话是多语言、开源选择——更广的语言覆盖、更灵活的方括号风格情绪提示、可自托管基础设施。与 ElevenLabs Dialogue v3 的权衡:英语情感表达精致度较弱、方括号解读稍欠可预测性、同意责任在你手上。纯英语动画中精致度最重要,ElevenLabs 更安全。多语言音频剧、带超越固定标签的微妙情感渐变的场景或自托管制作,Fish Audio S2-Pro 值得权衡。在 Martini 画布上构建场景一次;通过复制画布并翻译脚本同时保持声音 ID 不变来发布本地化版本。
在 Martini 的无限画布上将 Fish Audio S2-Pro 与其他 AI 模型连接使用。无需 GPU,免费开始。
免费开始