Kling
Kling AI Avatar 是专注面部的唇形同步模型——它接受肖像 + 音频轨道并产生紧凑的对话头视频,嘴部、下颌和下脸自然地动画到音频波形。取景保持头肩;全身演讲者视频带手势和躯干运动,改用 OmniHuman。Kling AI Avatar 作为音频驱动节点运行,无文本提示词,无可配置参数——质量完全由肖像和音频决定。大多数唇形同步调用每次生成上限 30-60 秒;将较长脚本分块为多个调用并下游连接。配套 tools/lip-sync 页面介绍路由细节;此 how-to 专注于 Kling-Avatar 配对的流程。
在两种特定情况下选择 Kling AI Avatar 而非 OmniHuman:(1) 取景仅为头肩——演讲者面部特写,无身体或手可见;(2) 你想要可预测的按任务渲染时间而非按秒定价。全身演讲者内容(肩 + 躯干 + 手势),OmniHuman 是正确选择,因为它除了面部还动画上半身。多语言本地化中相同肖像以 5+ 语言朗读对话,Kling AI Avatar 更紧凑的取景实际上有帮助——更少的身体细节意味着跨语言运动漂移的机会更少。
使用主体面向相机(或四分之三角度)、中性闭嘴表情、面部附近无手、无太阳镜、面部均匀光照的肖像。分辨率:面部区域最少 512×512,推荐 1024×1024+。来自 Nano Banana 2 或 Flux 的 AI 生成肖像,确保嘴巴、眼睛或下颌线周围无伪影——Kling AI Avatar 放大任何源不完美。侧面、运动模糊源或部分遮挡的面部产生明显较差的唇形同步。肖像质量是单一最大的质量控制杆;在生成音频之前花不成比例的时间来正确处理这个。
TTS 音频,直接在 Martini 画布上从 ElevenLabs Eleven v3(最佳英语情感语调)、Multilingual v2(29 种语言带稳定交付)或 Fish Audio S2-Pro(80+ 语言)生成。上传录音,确保单说话人干净音频在 44.1kHz 或更高,无背景音乐或第二声音。说话速度很重要:130-160 WPM 产生最自然的唇形同步。比 180 WPM 更快导致模型跳过音素;比 100 WPM 更慢在嘴部运动之间创建不自然的长停顿。多语言工作流,画布的相同肖像 + 不同音频架构意味着你只需要一张好肖像即可发布 5+ 语言版本。
添加工具节点,选择 Kling AI Avatar,并将图像节点(肖像)和音频节点(语音)都作为输入连接。模型输出同步视频片段——每次调用通常 30-60 秒,具有源自 Kling 人体运动引擎的解剖学准确下颌和脸颊运动。较长旁白(3 分钟课程模块、5 分钟主题演讲),将脚本拆分为 30-60 秒块,分别生成每个,并下游连接。Martini 画布通过依次放置多个 Kling AI Avatar 节点支持分块,每个馈送不同的音频段 + 相同肖像——输出读作连续对话头。注意:配套 tools/lip-sync 页面详细介绍分块模式。
Kling AI Avatar 是头肩选择——全身演讲者视频带躯干/手势,使用 OmniHuman。
肖像质量是单一最大的质量控制杆。面部区域最少 512×512,推荐 1024×1024+;正面或四分之三、中性闭嘴、无遮挡。
130-160 WPM 的音频产生最自然的唇形同步。180 WPM 以上模型跳过音素;100 WPM 以下创建不自然停顿。
每次调用上限通常 30-60 秒。较长脚本,分块为依次的多个 Kling AI Avatar 节点,相同肖像 + 分段音频。
配套工具页面:models/tools/lip-sync 介绍唇形同步工具路由和分块模式。此 how-to 是 Kling-Avatar 配对的流程。
Kling AI Avatar 产生紧凑的头肩对话头视频,具有源自 Kling 人体运动引擎的解剖学准确面部运动。流程是肖像 + 音频 → 同步视频,作为画布上的异步工具节点运行,并自然为较长脚本分块。与 OmniHuman 的权衡:Kling AI Avatar 是面部就是整个帧的特写演讲者内容(UGC 解说、课程介绍、多语言配音)的正确选择;OmniHuman 是带躯干/手势运动的全身演讲者视频的正确选择。多语言本地化具体来说,Kling AI Avatar 大放异彩,因为更紧凑的取景减少跨语言漂移——相同肖像可以用 5+ 语言发布对话且面部动画一致。完整流程在 Martini 画布上运行;配套 tools/lip-sync 页面介绍更高级的路由。
在 Martini 的无限画布上将 Kling AI Avatar 与其他 AI 模型连接使用。无需 GPU,免费开始。
免费开始