2 个模型可选
营销同事拿一张品牌代言人肖像 + 一段 ElevenLabs 生成的脚本,没有出镜演员就交付一支 30 秒口播广告。在 Martini 画布上,把肖像送进唇形同步工具节点,把 ElevenLabs Eleven v3 的音轨并入,再选择 Kling Avatar(紧凑口播)、OmniHuman(带手势和上半身的主持人)或 Kling O3 Video Edit 做风格化。大多数唇形同步模型每次调用上限 30-60 秒,长脚本要切片。选择下方模型走完 UGC 风格讲解或配音工作流。
Kling
Kling AI Avatar 是专注面部的唇形同步模型——它接受肖像 + 音频轨道并产生紧凑的对话头视频,嘴部、下颌和下脸自然地动画到音频波形。取景保持头肩;全身演讲者视频带手势和躯干运动,改用 OmniHuman。Kling AI Avatar 作为音频驱动节点运行,无文本提示词,无可配置参数——质量完全由肖像和音频决定。大多数唇形同步调用每次生成上限 30-60 秒;将较长脚本分块为多个调用并下游连接。配套 tools/lip-sync 页面介绍路由细节;此 how-to 专注于 Kling-Avatar 配对的流程。
ByteDance
OmniHuman 1.5 是全上半身唇形同步模型——它不仅动画面部还动画肩膀、手臂、手和躯干以响应音频,产生看起来像录制视频而非带移动嘴唇的静态肖像的演讲者风格对话头视频。架构是肖像 + 音频 → 带自然微表情、眨眼时机、头部摇摆和手势的同步视频。Kling AI Avatar 给你紧凑的特写取景,而 OmniHuman 给你一个能在自然手势的同时朗读脚本的演讲者——高管演示、主题演讲风格营销、带演员在屏幕上的课程或存在感很重要的 UGC 广告的正确选择。输出以 720p 在 1:1、16:9 或 9:16 纵横比运行。配套 tools/lip-sync 页面介绍工具路由;此 how-to 专注于 OmniHuman 配对的流程。