Fish Audio
Fish Audio S2-Pro 是播客片头主持人声音标签的多语言、开源选择——对于有国际听众或共同主持人对唱的节目尤其有价值。S2-Pro 模型处理 80+ 语言并自动检测,接受自然语言方括号提示如 [confidently] 或 [warmly] 用于演绎指导,并在单个音频节点内支持多说话人对话。在 Martini 上,你构建相同的三元素片头架构——音乐床、声音标签、SFX——但当节目需要语言灵活性或可自托管基础设施时使用 Fish Audio 用于声音元素。声音同意:如果你为标签克隆主持人的声音而非选择预制声音,先获得明确书面许可;Fish Audio 是开源的,因此同意执行在你手上。
Fish Audio S2-Pro 在三种特定情况下比 ElevenLabs 更合适:(1) 节目以多种语言发布——Fish Audio 在同一声音 ID 上处理 80+ 语言;(2) 你需要用非英语参考样本克隆共同主持人的声音,Fish Audio 的音素对齐更灵活;(3) 你在 Martini 之外自托管音频基础设施。对于使用单个主持人声音的纯英语节目,ElevenLabs Eleven v3 更精致,是更安全的默认。在构建画布之前做这个决定——床和 SFX 架构保持相同;仅声音节点更改。
Fish Audio S2-Pro 接受脚本内的自然语言方括号标签:[confidently]、[warmly]、[pause two seconds]、[conspiratorial whisper]。用这些指导声音标签演绎:每日新闻节目想要节目名前的 [confidently];访谈节目想要主持人介绍前的 [warmly];真实犯罪节目想要冷开场的 [conspiratorial whisper]。保持方括号提示局部——放在演绎应该变化的确切词上。与 ElevenLabs 的固定内联标签集对比:Fish Audio 的开放式方括号给出更广的表达范围,代价是解读稍欠可预测性,因此在锁定片头前测试 2-3 个演绎。
添加三个节点:(1) 音乐床音频节点——生成或上传 12-30 秒主题音乐。(2) Fish Audio S2-Pro 音频节点——带方括号提示的主持人声音标签,5-8 秒节目身份。(3) Sound Effects v2(或其他 SFX 提供商)音频节点——片头和第 1 集之间剪切处的单个转场。将所有三个对齐到同一画布时间线。声音标签在音乐床上播放,SFX 在声音结束时命中,床在第 1 集的前 3-5 秒下继续。标准总时长:12-30 秒。注意:Fish Audio 在 Martini 中目前是 SEO 定位的——生产运行时取决于工作区配置;如果 Fish Audio 未在你的工作区连接,回退到 ElevenLabs Eleven v3 用于声音节点。
Fish Audio 的 80+ 语言支持在同一播客以多种语言发布时大放异彩。用英语脚本构建片头画布一次,然后复制画布并将声音标签脚本切换到普通话、日语或西班牙语——Fish Audio 在所有语言版本中使用相同的克隆(或预制)声音,因此节目的声音身份在语言变化时保持一致。音乐床和 SFX 在版本间保持相同。这是 ElevenLabs Multilingual v2 也支持的多语言制作工作流,但 Fish Audio 更广的语言覆盖和方括号提示灵活性使其成为非西方语言版本节目的更强选择。
使用 Fish Audio S2-Pro 方括号提示的访谈节目介绍。[warmly] 设置开场基调,[pause] 创建标准电台交接,[confidently] 落实主持人介绍。在英语、普通话或 Fish Audio 80+ 支持语言的任何一种中同样有效。
[warmly] You're listening to The Founder Diaries. [pause] Stories from the people building the future, in their own words. [confidently] I'm your host, Mei.
使用 Fish Audio S2-Pro 多说话人标签的双主持人播客介绍。每个说话人可以是不同的克隆或预制声音,全部在一个音频节点中。HostB 轮次内的 [excited] 提示仅指导该行的演绎。
[Speaker:HostA] Hey everyone, welcome back to Two Founders. [Speaker:HostB] Yep — and today, [excited] we've got a guest you've been waiting for.
Fish Audio S2-Pro 对多语言节目或主持人声音以非英语语言发布的节目最强。纯英语节目,ElevenLabs Eleven v3 更精致更安全。
多说话人标签([Speaker:HostA]、[Speaker:HostB])让你在单个音频节点内构建双主持人片头——对两个共同主持人在冷开场交换台词的播客有用。
开放式方括号提示 [warmly]、[confidently]、[conspiratorial whisper] 给出比 ElevenLabs 固定标签更广的表达范围,但解读可能稍欠可预测性。在锁定前测试 2-3 个演绎。
如果你不希望播客片头离开你的基础设施,自托管服务是一个选项——对敏感或预发布内容有用。
将画布保存为模板并按语言版本复制。Fish Audio 在语言间使用相同声音 ID,因此节目的声音身份在口语脚本变化时保持一致。
Fish Audio S2-Pro 是播客片头声音标签的多语言、开源选择——特别是当节目以多种语言发布、有共同主持人或在自托管基础设施上运行时。与 ElevenLabs Eleven v3 的权衡:英语情感表达精致度较弱、方括号提示解读稍欠可预测性、同意责任在你手上。纯英语播客中主持人声音标签是成败关键时刻,ElevenLabs 是更安全的选择。多语言或双主持人节目中灵活性比最大英语精致度更重要,Fish Audio S2-Pro 值得权衡。完整片头流程——声音 + 音乐 + SFX——无论选择哪个声音模型都完全在 Martini 画布上运行,因此制作人可以每集交换模型而无需重建画布。
在 Martini 的无限画布上将 Fish Audio S2-Pro 与其他 AI 模型连接使用。无需 GPU,免费开始。
免费开始