ElevenLabs
ElevenLabs Eleven v3 在 Martini 上所有 TTS 模型中产生最自然的英语配音。它提供 21 种不同的声音——从温暖的叙述者音调(Rachel、Sarah)到权威的男声(Roger、Brian、Daniel)——每种都具有根据脚本内容自适应的逼真情感语调变化。每 ~100 字符 10 积分,比 Minimax Speech(擅长中文)更贵,但英语声音质量和情感表现力无可匹敌。ElevenLabs 还提供更快的 Turbo v2.5 变体(6 积分)和用于非英语语言的 Multilingual v2。
Minimax 2.5
Minimax Speech 2.5 HD 是普通话中文和多语言配音最佳的文本转语音模型。虽然 ElevenLabs 在英语 TTS 中占主导地位,但 Minimax Speech 以西方 TTS 模型无法匹敌的自然度处理中文声调准确度——四声、句子级语调和情感节奏都听起来像母语者而非机器人。模型提供 17 种不同声音,HD 版本每约 100 字符 10 积分,Turbo 变体每约 100 字符 6 积分,价格与 ElevenLabs 相当,同时提供更优的中日韩语言支持。