Tencent

HunyuanVideo-Foley

HunyuanVideo-Foley（也写作 Hunyuan Foley 或 Hunyuan Video Foley）是腾讯的视频转音频拟音模型，它分析无声片段并生成与画面动作同步的音效——脚步声、撞击声、关门声、环境音——精确对齐屏幕上的事件。它不生成视频，而是为任意来源的素材补上缺失的声音。在 Martini 上，你把 Hunyuan Foley 作为无限画布上的一个节点运行，与 50 多个图像、视频和音频模型并列，然后混音并导出到时间线。

HunyuanVideo-Foley 填补了 AI 视频制作中最大的空白：无声片段。大多数文本生成视频和图像生成视频模型——Sora 2、Kling、Seedance、Veo——输出的画面精美却没有声音，逼你在另一套 NLE 里手工设计每一个脚步声和环境音。Hunyuan Video Foley 自动弥合这一缺口。输入任意视频，模型逐帧分析视觉内容，识别产声事件，并渲染出匹配的音频轨道，让每个音效精确落在引发它的动作上。由于理解时间对齐，脚踩碎石、玻璃落桌或雨打窗户都会在正确的帧上发声，而不会跑偏失同步。截至 2026 年，腾讯的研究把 HunyuanVideo-Foley 定位为面向高保真、专业级拟音的「文本-视频到音频」系统，在各类场景下都具备强大的视听同步能力。在 Martini 上，它因此成为制作管线中自然的最后一步：生成或上传视频，接入 Hunyuan Foley 节点，无需录制任何声音即可得到完整的视听资源。与 ElevenLabs Sound Effects v2 这类靠文本描述生成音频的提示驱动音效生成器不同，Hunyuan Foley 直接从画面推导声音——因此能捕捉你本来需要手工描述的动作和时序。你可以把同一段无声片段同时分发到 Hunyuan Foley 和一个音乐或环境音模型，把每个生成结果留在版本托盘里，选出最契合剪辑的混音。

免费试用 HunyuanVideo-Foley

Illustrative sample: a HunyuanVideo-Foley node on the Martini canvas adding synchronized footstep and ambience audio to a silent AI-generated video clip, with the generated waveform aligned to on-screen action. — 示意样例 — 代表性输出，并非模型逐帧渲染结果

支持的功能

文本生成视频

图像生成视频

视频到视频

参考图像

尾帧控制

分镜编辑

音频驱动

支持的宽高比

16:99:161:14:33:4

最适合

为 AI 生成的无声视频片段添加同步声音
短视频和社交视频的后期拟音制作
完整声音设计前的快速音频原型
无需手动拟音录制即可完成视听资源

优势

音频与屏幕事件的精确时间对齐
从画面而非仅文本提示推导声音
理解广泛的声音类别（脚步声、撞击声、环境音）
免去手动拟音录制和音效库检索
适用于任何来源或生成模型的视频

局限性

不生成视频，仅为现有素材输出音频
具有大量重叠事件的复杂声景可能失去精度
生成的音频是混合轨道，并非可单独编辑的分轨
最佳效果需要片段中有清晰可见的产声运动

使用技巧

将 HunyuanVideo-Foley 作为最后一步——先生成或锁定视频，再添加音频。

保持源运动清晰且明确以获得最准确的拟音同步。

生成前确保片段有可见的产声事件（撞击、移动、交互）。

若需完整声音设计，在拟音轨下叠加一个音乐或环境音模型，先在画布上混音再 NLE 导出。

在 Martini 上使用 HunyuanVideo-Foley

在 Martini 的无限画布上将 HunyuanVideo-Foley 与其他 AI 模型连接使用。无需 GPU，免费开始。

免费开始

常见问题

HunyuanVideo-Foley 用来做什么？

HunyuanVideo-Foley 用于为无声视频添加同步的音效和拟音——脚步声、撞击声、关门声、环境音。你输入一段现有片段，它会生成与画面动作对齐的匹配音频轨道，让 AI 生成或上传的素材不再像无声草稿。它不生成视频，而是为你已有的视频生成声音。

什么是拟音（Foley）？什么是从视频生成的 AI 音效？

拟音是与画面同步录制日常音效——脚步声、衣物摩擦、物件操作——的技艺，传统上由拟音师在录音棚里手工完成。从视频生成的 AI 音效将这一步自动化：像 Hunyuan Foley 这样的视频转音频模型分析素材、识别正在发生的动作，并渲染出与每一帧对齐的对应声音，取代手工录制和音效库检索。

Hunyuan Foley 会生成视频吗？

不会。Hunyuan Foley 仅输出音频。它是一个视频转音频模型，分析现有片段并输出同步声音轨道，而非新画面。要先生成画面，可在 Martini 上搭配 Sora 2、Kling、Seedance 或 Veo 等文本/图像生成视频模型，再把无声结果送入 Hunyuan Foley 节点配音。

谁开发了 HunyuanVideo-Foley？

HunyuanVideo-Foley 由腾讯开发，是其 Hunyuan 生成模型家族的一部分。它是一个「文本-视频到音频」系统，专注于高保真、专业级拟音和强大的视听同步。在 Martini 上你将其作为标准节点使用，无需管理任何本地配置或 GPU。

Hunyuan Foley 与 ElevenLabs 这类音效生成器有何不同？

ElevenLabs Sound Effects v2 这类提示驱动生成器根据你写的文本描述构建音频，而 HunyuanVideo-Foley 直接从视频本身推导声音——因此能自动捕捉动作、时序和事件顺序。截至 2026 年，实用流程是用 Hunyuan Foley 做画面同步拟音，用提示驱动生成器做特定设计音效，再在画布上把两者混音。

如何在 Martini 上为 AI 视频添加 Hunyuan Foley 音频？

在 Martini 上，你把视频节点接入 HunyuanVideo-Foley 节点并生成，同步音频会作为一个生成结果出现在版本托盘里。由于 Martini 是基于浏览器的节点画布，无需安装或 GPU，你可以把同一段无声片段同时分发到拟音和音乐/环境音模型，比较各版混音，再把成片视听片段导出到 NLE 时间线。

HunyuanVideo-Foley 能生成哪些声音？

HunyuanVideo-Foley 能生成与可见动作相关的广泛叙事性声音——不同表面的脚步声、撞击与物件操作声、机械与门声，以及雨声、风声等环境氛围。当片段中有清晰可见的产声运动时效果最好；事件大量重叠的密集场景可能损失部分精度。

操作指南

HunyuanVideo-Foley

免费试用 HunyuanVideo-Foley

支持的功能

文本生成视频

图像生成视频

视频到视频

参考图像

尾帧控制

分镜编辑

音频驱动

支持的宽高比

16:99:161:14:33:4

最适合

为 AI 生成的无声视频片段添加同步声音
短视频和社交视频的后期拟音制作
完整声音设计前的快速音频原型
无需手动拟音录制即可完成视听资源

优势

音频与屏幕事件的精确时间对齐
从画面而非仅文本提示推导声音
理解广泛的声音类别（脚步声、撞击声、环境音）
免去手动拟音录制和音效库检索
适用于任何来源或生成模型的视频

局限性

不生成视频，仅为现有素材输出音频
具有大量重叠事件的复杂声景可能失去精度
生成的音频是混合轨道，并非可单独编辑的分轨
最佳效果需要片段中有清晰可见的产声运动

使用技巧

将 HunyuanVideo-Foley 作为最后一步——先生成或锁定视频，再添加音频。

保持源运动清晰且明确以获得最准确的拟音同步。

生成前确保片段有可见的产声事件（撞击、移动、交互）。

若需完整声音设计，在拟音轨下叠加一个音乐或环境音模型，先在画布上混音再 NLE 导出。

在 Martini 上使用 HunyuanVideo-Foley

在 Martini 的无限画布上将 HunyuanVideo-Foley 与其他 AI 模型连接使用。无需 GPU，免费开始。

免费开始

常见问题

HunyuanVideo-Foley 用来做什么？

什么是拟音（Foley）？什么是从视频生成的 AI 音效？

Hunyuan Foley 会生成视频吗？

谁开发了 HunyuanVideo-Foley？

Hunyuan Foley 与 ElevenLabs 这类音效生成器有何不同？

如何在 Martini 上为 AI 视频添加 Hunyuan Foley 音频？

HunyuanVideo-Foley 能生成哪些声音？

HunyuanVideo-Foley

支持的功能

支持的宽高比

最适合

优势

局限性

使用技巧

在 Martini 上使用 HunyuanVideo-Foley

常见问题

相关功能

操作指南

延伸阅读

相关视频模型

Sora 2

Seedance 2

Seedance 1

本网站使用 Cookie

HunyuanVideo-Foley

支持的功能

支持的宽高比

最适合

优势

局限性

使用技巧

在 Martini 上使用 HunyuanVideo-Foley

常见问题

相关功能

操作指南

延伸阅读

相关视频模型

Sora 2

Seedance 2

Seedance 1