2 个模型可选
播客主或课程作者用 30 秒样音克隆自己的声音,之后无需重录就能生成新旁白。在 Martini 画布上,把干净的参考音频放进音频节点,送到 ElevenLabs Voice Cloning、Fish Audio S2-Pro 声音克隆或 Minimax Voice Design,再把克隆出来的声音链接到下游脚本转语音、配音或唇形同步节点。适合用于创始人声音培训旁白、课程模块或为已有视频做本地化。只能克隆你拥有版权或获得授权的声音。选择下方模型走完克隆工作流。
ElevenLabs
ElevenLabs 提供两档声音克隆,直接对应你手上的参考音频量。即时声音克隆 (IVC) 用 10 秒样本即可训练,几秒内可用——适合内部旁白草稿、原型配音和个人视频旁白。专业声音克隆 (PVC) 需要 30+ 分钟干净录音棚音频,但生成的声音可以承担整个课程或有声书而不漂移。在 Martini 上,两种模式都接入 Eleven v3(或非英语工作选 Multilingual v2),声音注册后即可在 70+ 语言中带内联情绪标签生成新旁白。关键:只克隆你拥有或获得明确书面许可的声音。ElevenLabs 对自己的声音要求声音验证,无论平台是否强制执行,授权都很重要。
Fish Audio
Fish Audio S2-Pro 是 ElevenLabs 克隆的开源替代方案,有两个真正的差异:提示词内的自然语言方括号控制([whispering]、[laughing nervously]、[pause])和你可以自托管的开源服务栈。声音克隆需要干净的参考音频样本加上匹配的转写——Fish Audio 用转写文本消除音素歧义,因此错位的转写比在 ElevenLabs 上更损害克隆质量。覆盖 80+ 语言并自动检测。关键:只克隆你拥有或获得明确书面许可的声音。Fish Audio 是开源的,意味着同意执行在你手上而非平台——上传参考音频之前明确权利清算。