ElevenLabs
ElevenLabs 提供两档声音克隆,直接对应你手上的参考音频量。即时声音克隆 (IVC) 用 10 秒样本即可训练,几秒内可用——适合内部旁白草稿、原型配音和个人视频旁白。专业声音克隆 (PVC) 需要 30+ 分钟干净录音棚音频,但生成的声音可以承担整个课程或有声书而不漂移。在 Martini 上,两种模式都接入 Eleven v3(或非英语工作选 Multilingual v2),声音注册后即可在 70+ 语言中带内联情绪标签生成新旁白。关键:只克隆你拥有或获得明确书面许可的声音。ElevenLabs 对自己的声音要求声音验证,无论平台是否强制执行,授权都很重要。
录制或上传之前,获得声音所有人的明确书面同意。ElevenLabs 对克隆自己声音要求声音验证,Martini 遵循同一策略。在即时声音克隆(10 秒样本,几秒可用,适合草稿和短旁白)和专业声音克隆(30+ 分钟干净录音棚音频,24 小时可用,唯一可接受用于长篇课程、有声书或品牌旁白声音的模式)之间选择。如果你的样本是 30 秒手机录音,IVC 是你的唯一选择——PVC 会拒绝低质量输入。如果你控制录制会话,计划 30 分钟无背景噪音的多样脚本内容:那一次性的努力会买到能在数千次生成中保持稳定的声音。
即时声音克隆,在安静房间录制 10 秒对话语音——没有背景音乐,没有空调嗡嗡声,没有第二说话人。按你希望克隆声音听起来的方式说话:沉着的旁白节奏产生沉着的克隆声音;兴奋的朗读产生兴奋的克隆。专业声音克隆需要 30+ 分钟录音棚级录制:变化内容(叙述段落、对话线、技术朗读、情感范围),让模型捕捉你完整的演绎范围。所有上传转为 44.1kHz WAV 或 320kbps MP3。带有底噪、房间混响、嘴唇咂声或呼吸喷麦的音频会训练进克隆——你无法在事后剥离它们。
添加音频节点,选择 ElevenLabs Eleven v3(非英语工作选 Multilingual v2),并从声音选择器中选择新克隆的声音。生成 30 秒测试句子,使用样本未涵盖的声音:含"s"的词、疑问语调、数字序列、感叹。这是 IVC 克隆失败而 PVC 克隆保持稳定的地方。如果 IVC 克隆在问题或数字上挣扎,那就是权衡——用更多样化内容重新录制或升级到 PVC。测试通过后,克隆的声音可在项目所有音频节点中重用,并可接入唇形同步节点(OmniHuman、Kling LipSync)进行数字人交付。
克隆声音仍然需要指导。Eleven v3 理解放在需要影响的词附近的内联标签如 [whispers]、[laughs]、[sighs]、[excited]、[pause]。课程介绍:"Hi everyone, [excited] welcome to module three!" 产生的演绎明显比没有标签的同一行更温暖。保持标签稀疏和局部——60 秒旁白中三个标签足够;十个标签互相冲突产生不一致的朗读。标点也驱动节奏:省略号创建沉思停顿,破折号创建急促过渡,短句以更快的自信节奏朗读。
使用克隆的主持人声音的播客介绍——[excited] 标签在欢迎行提升能量,省略号在节目开场前设置沉思停顿。无论是 IVC 用于原型录制还是 PVC 用于发布版本都同样有效。
Hi everyone, welcome back to the show. [excited] Today we're diving into something I've been waiting weeks to talk about... let's get into it.
使用克隆的创始人声音的课程旁白——编号结构给克隆声音清晰的节奏标记,"Ready?"前的 [pause] 创建一个刻意的时刻,反映真实讲师让班级跟上的方式。
In this module, we'll cover three core concepts. First, we look at how the data flows through the pipeline. Then, we trace each transformation step. Finally, we audit the output for quality. [pause] Ready? Let's start.
即时声音克隆 (IVC) 需要 10 秒干净音频,几秒可用。专业声音克隆 (PVC) 需要 30+ 分钟和 24 小时训练时间,但产生能在长篇内容中保持稳定的声音。没有中间档位。
非英语克隆声音,将音频节点从 Eleven v3 切换到 ElevenLabs Multilingual v2——两者可以使用相同克隆声音 ID,但 Multilingual v2 在英语外产生更自然的韵律。
声音同意非可选。记录任何非你自己声音的书面许可,即使是内部草稿。ElevenLabs 声音验证涵盖你自己的声音;他人的许可由你负责。
克隆声音可在工作区所有音频节点中重用,并连接到唇形同步节点(OmniHuman、Kling LipSync)进行数字人交付。
克隆的 ElevenLabs 声音是你可以在不重新录制的情况下最接近真实声音。IVC 几秒内出草稿,适合除标杆内容外的一切;PVC 需要一天训练,是你应该交付给课程或有声书的唯一模式。输出在生成之间保持一致,因为声音注册一次——每个后续音频节点调用重用同一声音 ID。与 Fish Audio S2-Pro 的权衡:ElevenLabs 有更广的声音生态和更强的英语情感语调;Fish Audio S2-Pro 有开源服务和自然语言方括号控制。对于已经在流程中运行 ElevenLabs 旁白的创作者,克隆到同一系列将一切保持在单一画布中。
在 Martini 的无限画布上将 ElevenLabs Eleven v3 与其他 AI 模型连接使用。无需 GPU,免费开始。
免费开始