ElevenLabs

如何使用 ElevenLabs Dialogue v3 生成 AI 对白

ElevenLabs Dialogue v3 是 Eleven v3 的多说话人端点——为不同角色声音之间的自然轮换而构建，带有内联情绪标签（[whispers]、[laughs]、[excited]、[sighs]）指导每行演绎。标准 Eleven v3 是一个声音朗读段落，而 Dialogue v3 让你为不同说话人分配不同声音，并让他们以自然的节奏、呼吸和情感反应朗读脚本场景。在 Martini 上，你将对话场景构建为画布上的音频节点——每个角色一个节点用于细粒度控制，或单个 Dialogue v3 节点用于完整多说话人生成。21 种声音库涵盖完整的角色原型范围，克隆声音支持让你在预制声音不匹配时引入自定义角色。

免费试用 ElevenLabs Dialogue v3

分步指南

在写场景之前为角色选派声音

在写对话之前从 21 种声音库为每个角色选择一个声音。声音与角色的匹配比任何其他制作决策更影响可信度：硬汉侦探想要 Brian 或 Roger；好奇的少年想要 Lily 或 Charlie；睿智的祖母想要 Sarah 或 Matilda。每个角色生成 10 秒测试行——同一行由 2-3 个候选声音朗读——连续听。一旦投入，记录声音到角色的映射；你将在项目的每个场景中重用相同映射以保持听众潜意识注意到的角色一致性。

用明确归属编写说话人轮次

Dialogue v3 读取带明确说话人标签的脚本。格式：每行前缀方括号内的角色名，如 [Detective Cole]、[Mira]、[Captain]。保持每个轮次简短——每轮 1-3 句产生最自然的节奏；更长的独白感觉像一个声音读段落而非对话。轮次之间使用换行；模型将它们视为分隔说话人的自然呼吸/停顿。对于打断或重叠语音，写以破折号结束于句中的单个角色行（"I was just about to —"），让下一个说话人立即接上。

用内联标签逐行指导演绎

Dialogue v3 内联标签与 Eleven v3 相同：[whispers]、[laughs]、[excited]、[sighs]、[pause]。将每个标签紧邻它应影响的词，限定到一个说话人的行。例如："[Mira] [whispers] Did you hear that?"让 Mira 低语提问，而非整个场景。每场景三个标签足够——一个 60 秒 4 角色场景每个角色一个标签感觉自然有变化；十个标签让对话感觉戏剧化和过度指导。为情节节拍保留最强标签（[whispers]、[angry]、[terrified]）；让预制声音角色承担日常基调。

将对话音频接入画布流程

Dialogue v3 音频节点输出包含所有说话人轮次的单个音频文件。从那里，Martini 画布打开完整制作流程：将音频输出连接到视频节点用于动画短场景，路由到 OmniHuman 或 Kling Avatar 用于角色肖像数字人交付（每个角色一个节点），或作为画外音叠加到视频时间线用于动画。4 角色动画短片，标准架构是每个角色一个图像节点（通过 Nano Banana 2 或 Flux Kontext 的一致肖像）、每个角色一个唇形同步节点（OmniHuman 用于主角特写，Kling Avatar 用于群像镜头）、按角色拆分的 Dialogue v3 音频馈送每个唇形同步节点。

提示词示例

双角色审讯场景——Detective Cole 为 Brian（权威男声），Mira 为 Sarah（带边缘的温暖女声）。[skeptically] 标签在问题上提升怀疑；[whispers] 使 Mira 的答案不祥但不过度提高赌注。

[Detective Cole] So you were home all night? [Mira] [pause] Yes. With my sister. [Detective Cole] [skeptically] And she'll vouch for that? [Mira] [whispers] She has to.

三角色群像——Captain 为 Daniel（平静权威），Engineer 为 Charlie（有活力的年轻），Pilot 为 Liam（沉着专业）。每个角色获得一个匹配其原型的内联标签。总时长：约 12 秒。

[Captain] Mission control, status check. [Engineer] [excited] All systems nominal! [Pilot] Ready when you are, Captain. [Captain] [confidently] Let's go.

参数技巧

在写脚本之前为角色选派声音。声音与角色匹配比任何制作决策更影响可信度；记录映射，让它在场景间保持一致。

保持说话人轮次每轮 1-3 句。长独白失去对话节奏；短轮次产生说话人之间带呼吸和停顿的自然轮换。

稀疏使用内联标签（[whispers]、[laughs]、[excited]）——60 秒场景中三个标签足够。过度指导让场景感觉戏剧化；指导不足让声音角色自然承担基调。

长场景（>60秒），考虑拆分为多个 Dialogue v3 调用。Eleven v3 有每请求 5,000 字符限制；节奏也受益于场景节拍之间的自然中断。

动画短片，按角色拆分 Dialogue v3 输出（每个一个音频轨道）并将每个轨道馈送到单独的唇形同步节点（OmniHuman 用于主角特写，Kling Avatar 用于群像镜头）。

输出预期

ElevenLabs Dialogue v3 产生可用的最精致多说话人英语对话——自然轮换、独特角色声音、与配音录制媲美的情感语调。与 Fish Audio S2-Pro 的权衡：Dialogue v3 在英语方面更精致但限于 ElevenLabs 的 21 种声音库加上你的克隆声音，标签是固定集而非开放式自然语言。Fish Audio 使用 [Speaker:Name] 语法与方括号情绪提示，而 Dialogue v3 使用 [CharacterName] 标签与标准 Eleven v3 内联情绪集。英语动画、音频剧或交互原型中精致度最重要，Dialogue v3 是更安全的选择。多语言或带自定义情绪语言的实验场景，Fish Audio 值得在同一画布上比较。

在 Martini 上使用 ElevenLabs Dialogue v3

在 Martini 的无限画布上将 ElevenLabs Dialogue v3 与其他 AI 模型连接使用。无需 GPU，免费开始。

免费开始

文档

nodes/audio

其他模型教程

Fish Audio

Fish Audio S2-Pro

Fish Audio S2-Pro 的多说话人对话模式在 Fish Audio 系列中是 S2-Pro 独有的——较旧的 S1 不支持。使用 [Speaker:Name] 语法为不同说话人分配不同声音，带有自然语言方括号提示如 [whispering]、[laughing nervously] 或 [pause two seconds] 指导每行演绎。覆盖 80+ 语言，相同声音 ID 上自动检测，这使 Fish Audio 成为多语言对话场景（例如以英语 + 普通话 + 日语发布的音频剧）或需要超越 ElevenLabs 固定内联标签集的表达范围的场景的最强选择。开源服务意味着你可以为敏感或预发布内容在 Martini 之外自托管对话生成。

查看教程

如何生成 AI 对白

ElevenLabs

如何使用 ElevenLabs Dialogue v3 生成 AI 对白

免费试用 ElevenLabs Dialogue v3

分步指南

在写场景之前为角色选派声音

用明确归属编写说话人轮次

用内联标签逐行指导演绎

将对话音频接入画布流程

提示词示例

[Detective Cole] So you were home all night? [Mira] [pause] Yes. With my sister. [Detective Cole] [skeptically] And she'll vouch for that? [Mira] [whispers] She has to.

[Captain] Mission control, status check. [Engineer] [excited] All systems nominal! [Pilot] Ready when you are, Captain. [Captain] [confidently] Let's go.

参数技巧

在写脚本之前为角色选派声音。声音与角色匹配比任何制作决策更影响可信度；记录映射，让它在场景间保持一致。

保持说话人轮次每轮 1-3 句。长独白失去对话节奏；短轮次产生说话人之间带呼吸和停顿的自然轮换。

稀疏使用内联标签（[whispers]、[laughs]、[excited]）——60 秒场景中三个标签足够。过度指导让场景感觉戏剧化；指导不足让声音角色自然承担基调。

长场景（>60秒），考虑拆分为多个 Dialogue v3 调用。Eleven v3 有每请求 5,000 字符限制；节奏也受益于场景节拍之间的自然中断。

输出预期

在 Martini 上使用 ElevenLabs Dialogue v3

在 Martini 的无限画布上将 ElevenLabs Dialogue v3 与其他 AI 模型连接使用。无需 GPU，免费开始。

免费开始

文档

nodes/audio

其他模型教程

Fish Audio

Fish Audio S2-Pro

查看教程

如何生成 AI 对白

如何使用 ElevenLabs Dialogue v3 生成 AI 对白

分步指南

在写场景之前为角色选派声音

用明确归属编写说话人轮次

用内联标签逐行指导演绎

将对话音频接入画布流程

提示词示例

参数技巧

输出预期

在 Martini 上使用 ElevenLabs Dialogue v3

相关功能

文档

延伸阅读

其他模型教程

Fish Audio S2-Pro

本网站使用 Cookie

如何使用 ElevenLabs Dialogue v3 生成 AI 对白

分步指南

在写场景之前为角色选派声音

用明确归属编写说话人轮次

用内联标签逐行指导演绎

将对话音频接入画布流程

提示词示例

参数技巧

输出预期

在 Martini 上使用 ElevenLabs Dialogue v3

相关功能

文档

延伸阅读

其他模型教程

Fish Audio S2-Pro