ElevenLabs
ElevenLabs Dialogue v3 是 Eleven v3 的多说话人端点——为不同角色声音之间的自然轮换而构建,带有内联情绪标签([whispers]、[laughs]、[excited]、[sighs])指导每行演绎。标准 Eleven v3 是一个声音朗读段落,而 Dialogue v3 让你为不同说话人分配不同声音,并让他们以自然的节奏、呼吸和情感反应朗读脚本场景。在 Martini 上,你将对话场景构建为画布上的音频节点——每个角色一个节点用于细粒度控制,或单个 Dialogue v3 节点用于完整多说话人生成。21 种声音库涵盖完整的角色原型范围,克隆声音支持让你在预制声音不匹配时引入自定义角色。
在写对话之前从 21 种声音库为每个角色选择一个声音。声音与角色的匹配比任何其他制作决策更影响可信度:硬汉侦探想要 Brian 或 Roger;好奇的少年想要 Lily 或 Charlie;睿智的祖母想要 Sarah 或 Matilda。每个角色生成 10 秒测试行——同一行由 2-3 个候选声音朗读——连续听。一旦投入,记录声音到角色的映射;你将在项目的每个场景中重用相同映射以保持听众潜意识注意到的角色一致性。
Dialogue v3 读取带明确说话人标签的脚本。格式:每行前缀方括号内的角色名,如 [Detective Cole]、[Mira]、[Captain]。保持每个轮次简短——每轮 1-3 句产生最自然的节奏;更长的独白感觉像一个声音读段落而非对话。轮次之间使用换行;模型将它们视为分隔说话人的自然呼吸/停顿。对于打断或重叠语音,写以破折号结束于句中的单个角色行("I was just about to —"),让下一个说话人立即接上。
Dialogue v3 内联标签与 Eleven v3 相同:[whispers]、[laughs]、[excited]、[sighs]、[pause]。将每个标签紧邻它应影响的词,限定到一个说话人的行。例如:"[Mira] [whispers] Did you hear that?"让 Mira 低语提问,而非整个场景。每场景三个标签足够——一个 60 秒 4 角色场景每个角色一个标签感觉自然有变化;十个标签让对话感觉戏剧化和过度指导。为情节节拍保留最强标签([whispers]、[angry]、[terrified]);让预制声音角色承担日常基调。
Dialogue v3 音频节点输出包含所有说话人轮次的单个音频文件。从那里,Martini 画布打开完整制作流程:将音频输出连接到视频节点用于动画短场景,路由到 OmniHuman 或 Kling Avatar 用于角色肖像数字人交付(每个角色一个节点),或作为画外音叠加到视频时间线用于动画。4 角色动画短片,标准架构是每个角色一个图像节点(通过 Nano Banana 2 或 Flux Kontext 的一致肖像)、每个角色一个唇形同步节点(OmniHuman 用于主角特写,Kling Avatar 用于群像镜头)、按角色拆分的 Dialogue v3 音频馈送每个唇形同步节点。
双角色审讯场景——Detective Cole 为 Brian(权威男声),Mira 为 Sarah(带边缘的温暖女声)。[skeptically] 标签在问题上提升怀疑;[whispers] 使 Mira 的答案不祥但不过度提高赌注。
[Detective Cole] So you were home all night? [Mira] [pause] Yes. With my sister. [Detective Cole] [skeptically] And she'll vouch for that? [Mira] [whispers] She has to.
三角色群像——Captain 为 Daniel(平静权威),Engineer 为 Charlie(有活力的年轻),Pilot 为 Liam(沉着专业)。每个角色获得一个匹配其原型的内联标签。总时长:约 12 秒。
[Captain] Mission control, status check. [Engineer] [excited] All systems nominal! [Pilot] Ready when you are, Captain. [Captain] [confidently] Let's go.
在写脚本之前为角色选派声音。声音与角色匹配比任何制作决策更影响可信度;记录映射,让它在场景间保持一致。
保持说话人轮次每轮 1-3 句。长独白失去对话节奏;短轮次产生说话人之间带呼吸和停顿的自然轮换。
稀疏使用内联标签([whispers]、[laughs]、[excited])——60 秒场景中三个标签足够。过度指导让场景感觉戏剧化;指导不足让声音角色自然承担基调。
长场景(>60秒),考虑拆分为多个 Dialogue v3 调用。Eleven v3 有每请求 5,000 字符限制;节奏也受益于场景节拍之间的自然中断。
动画短片,按角色拆分 Dialogue v3 输出(每个一个音频轨道)并将每个轨道馈送到单独的唇形同步节点(OmniHuman 用于主角特写,Kling Avatar 用于群像镜头)。
ElevenLabs Dialogue v3 产生可用的最精致多说话人英语对话——自然轮换、独特角色声音、与配音录制媲美的情感语调。与 Fish Audio S2-Pro 的权衡:Dialogue v3 在英语方面更精致但限于 ElevenLabs 的 21 种声音库加上你的克隆声音,标签是固定集而非开放式自然语言。Fish Audio 使用 [Speaker:Name] 语法与方括号情绪提示,而 Dialogue v3 使用 [CharacterName] 标签与标准 Eleven v3 内联情绪集。英语动画、音频剧或交互原型中精致度最重要,Dialogue v3 是更安全的选择。多语言或带自定义情绪语言的实验场景,Fish Audio 值得在同一画布上比较。
在 Martini 的无限画布上将 ElevenLabs Dialogue v3 与其他 AI 模型连接使用。无需 GPU,免费开始。
免费开始