Tencent
HunyuanVideo-Foley(也写作 Hunyuan Foley 或 Hunyuan Video Foley)是腾讯的视频转音频拟音模型,它分析无声片段并生成与画面动作同步的音效——脚步声、撞击声、关门声、环境音——精确对齐屏幕上的事件。它不生成视频,而是为任意来源的素材补上缺失的声音。在 Martini 上,你把 Hunyuan Foley 作为无限画布上的一个节点运行,与 50 多个图像、视频和音频模型并列,然后混音并导出到时间线。
HunyuanVideo-Foley 填补了 AI 视频制作中最大的空白:无声片段。大多数文本生成视频和图像生成视频模型——Sora 2、Kling、Seedance、Veo——输出的画面精美却没有声音,逼你在另一套 NLE 里手工设计每一个脚步声和环境音。Hunyuan Video Foley 自动弥合这一缺口。输入任意视频,模型逐帧分析视觉内容,识别产声事件,并渲染出匹配的音频轨道,让每个音效精确落在引发它的动作上。由于理解时间对齐,脚踩碎石、玻璃落桌或雨打窗户都会在正确的帧上发声,而不会跑偏失同步。截至 2026 年,腾讯的研究把 HunyuanVideo-Foley 定位为面向高保真、专业级拟音的「文本-视频到音频」系统,在各类场景下都具备强大的视听同步能力。在 Martini 上,它因此成为制作管线中自然的最后一步:生成或上传视频,接入 Hunyuan Foley 节点,无需录制任何声音即可得到完整的视听资源。与 ElevenLabs Sound Effects v2 这类靠文本描述生成音频的提示驱动音效生成器不同,Hunyuan Foley 直接从画面推导声音——因此能捕捉你本来需要手工描述的动作和时序。你可以把同一段无声片段同时分发到 Hunyuan Foley 和一个音乐或环境音模型,把每个生成结果留在版本托盘里,选出最契合剪辑的混音。

在 Martini 的无限画布上将 HunyuanVideo-Foley 与其他 AI 模型连接使用。无需 GPU,免费开始。
免费开始HunyuanVideo-Foley 用于为无声视频添加同步的音效和拟音——脚步声、撞击声、关门声、环境音。你输入一段现有片段,它会生成与画面动作对齐的匹配音频轨道,让 AI 生成或上传的素材不再像无声草稿。它不生成视频,而是为你已有的视频生成声音。
拟音是与画面同步录制日常音效——脚步声、衣物摩擦、物件操作——的技艺,传统上由拟音师在录音棚里手工完成。从视频生成的 AI 音效将这一步自动化:像 Hunyuan Foley 这样的视频转音频模型分析素材、识别正在发生的动作,并渲染出与每一帧对齐的对应声音,取代手工录制和音效库检索。
不会。Hunyuan Foley 仅输出音频。它是一个视频转音频模型,分析现有片段并输出同步声音轨道,而非新画面。要先生成画面,可在 Martini 上搭配 Sora 2、Kling、Seedance 或 Veo 等文本/图像生成视频模型,再把无声结果送入 Hunyuan Foley 节点配音。
HunyuanVideo-Foley 由腾讯开发,是其 Hunyuan 生成模型家族的一部分。它是一个「文本-视频到音频」系统,专注于高保真、专业级拟音和强大的视听同步。在 Martini 上你将其作为标准节点使用,无需管理任何本地配置或 GPU。
ElevenLabs Sound Effects v2 这类提示驱动生成器根据你写的文本描述构建音频,而 HunyuanVideo-Foley 直接从视频本身推导声音——因此能自动捕捉动作、时序和事件顺序。截至 2026 年,实用流程是用 Hunyuan Foley 做画面同步拟音,用提示驱动生成器做特定设计音效,再在画布上把两者混音。
在 Martini 上,你把视频节点接入 HunyuanVideo-Foley 节点并生成,同步音频会作为一个生成结果出现在版本托盘里。由于 Martini 是基于浏览器的节点画布,无需安装或 GPU,你可以把同一段无声片段同时分发到拟音和音乐/环境音模型,比较各版混音,再把成片视听片段导出到 NLE 时间线。
HunyuanVideo-Foley 能生成与可见动作相关的广泛叙事性声音——不同表面的脚步声、撞击与物件操作声、机械与门声,以及雨声、风声等环境氛围。当片段中有清晰可见的产声运动时效果最好;事件大量重叠的密集场景可能损失部分精度。