ByteDance
OmniHuman 是字节跳动的音频驱动肖像动画模型,可将一张静态照片和一段音频转化为带有同步唇部运动、面部表情和自然头部动作的说话头部视频。
OmniHuman 专注于通过音频输入驱动肖像图像动画。1.0 版本可从正面照片配合语音音频生成稳定的口型同步和头部运动。1.5 版本改进了口型同步精度,支持更广泛的肖像风格(包括插画和风格化面孔),并生成更自然的头部动作。两个版本都能与 Martini 工作流中的文本转语音模型良好集成,实现端到端的说话头部视频制作。
| 变体 | 说明 |
|---|---|
| OmniHuman v1 | 音频驱动的肖像动画,支持口型同步、表情和头部动作。 |
| OmniHuman v1.5 | 改进的口型同步精度,更好地支持多样化肖像风格。 |
在 Martini 的无限画布上将 OmniHuman 与其他 AI 模型连接使用。无需 GPU,免费开始。
免费开始