2 个模型可选
播客主持人订制一个 12 秒带品牌的片头——语音 tag + 6 秒音乐床 + 转场音效——全部在画布上完成,无需聘请音频制作人。在 Martini 上,把脚本放进 ElevenLabs Eleven v3 语音节点,用 Suno V5 或 Minimax Music 生成主题音乐,再链接 Sound Effects v2 做转场音效,全部送到音频混合节点。输出是一档每周节目的片头和片尾:TTS 节目名 + 风格匹配的主题音乐 + 转场音效。选择下方模型走完节目片头工作流。
ElevenLabs
播客片头是 12-30 秒时间线上叠加的三个音频元素:音乐床、主持人声音标签和 SFX 转场(呼啸声、上升音或冲击音)。在 Martini 上,ElevenLabs Eleven v3 处理主持人声音标签,Sound Effects v2 处理转场——两者都在同一画布的音频节点中运行,你可以交换声音、重新提示 SFX、重新计时音乐床而无需离开画布。Eleven v3 产生播客听众期望的广播品质叙述者表达;21 种声音库涵盖温暖叙述者(Rachel、Sarah)、权威男声(Brian、Daniel)和有活力的节目主持人(Aria、Charlie)。声音同意:如果你为标签克隆共同主持人的声音而非从库中选择,先获得明确书面许可——与任何其他声音克隆相同的规则适用。
Fish Audio
Fish Audio S2-Pro 是播客片头主持人声音标签的多语言、开源选择——对于有国际听众或共同主持人对唱的节目尤其有价值。S2-Pro 模型处理 80+ 语言并自动检测,接受自然语言方括号提示如 [confidently] 或 [warmly] 用于演绎指导,并在单个音频节点内支持多说话人对话。在 Martini 上,你构建相同的三元素片头架构——音乐床、声音标签、SFX——但当节目需要语言灵活性或可自托管基础设施时使用 Fish Audio 用于声音元素。声音同意:如果你为标签克隆主持人的声音而非选择预制声音,先获得明确书面许可;Fish Audio 是开源的,因此同意执行在你手上。