2 个模型可选
动画团队编写一段四人场景——自然的轮换、独特的声音、情绪标签——不用请配音演员。在 Martini 画布上,设置一个带说话人轮换的脚本节点,通过 ElevenLabs Eleven v3 Dialogue(专属多说话人端点)、Fish Audio S2-Pro 多说话人或 Minimax Speech 处理,并使用 [whispers]、[laughs]、[excited] 等行内标签来控制情绪。输出可直接用于多角色动画短片、音频剧或交互原型。选择下方模型走完多说话人制作工作流。
ElevenLabs
ElevenLabs Dialogue v3 是 Eleven v3 的多说话人端点——为不同角色声音之间的自然轮换而构建,带有内联情绪标签([whispers]、[laughs]、[excited]、[sighs])指导每行演绎。标准 Eleven v3 是一个声音朗读段落,而 Dialogue v3 让你为不同说话人分配不同声音,并让他们以自然的节奏、呼吸和情感反应朗读脚本场景。在 Martini 上,你将对话场景构建为画布上的音频节点——每个角色一个节点用于细粒度控制,或单个 Dialogue v3 节点用于完整多说话人生成。21 种声音库涵盖完整的角色原型范围,克隆声音支持让你在预制声音不匹配时引入自定义角色。
Fish Audio
Fish Audio S2-Pro 的多说话人对话模式在 Fish Audio 系列中是 S2-Pro 独有的——较旧的 S1 不支持。使用 [Speaker:Name] 语法为不同说话人分配不同声音,带有自然语言方括号提示如 [whispering]、[laughing nervously] 或 [pause two seconds] 指导每行演绎。覆盖 80+ 语言,相同声音 ID 上自动检测,这使 Fish Audio 成为多语言对话场景(例如以英语 + 普通话 + 日语发布的音频剧)或需要超越 ElevenLabs 固定内联标签集的表达范围的场景的最强选择。开源服务意味着你可以为敏感或预发布内容在 Martini 之外自托管对话生成。