Google

如何使用 Google Veo 3.1 创建 AI 短片

Google Veo 3.1 把原生音频合成烤进与画面同一次生成——直接在提示词里描写环境声，Veo 与画面同步。对一部对白、脚步声、音乐床都要按时落点的独立短片来说，Veo 3.1 是最干净的端到端选择。输出最高 1080p，分 Fast 和 Standard 档，外加一个 Extend 变体可以在 V2V 模式下继续现有片段，方便多片段无缝拼接。

免费试用 Google Veo 3.1

分步指南

在提示词里直接描写环境声

Veo 3.1 原生音频合成意味着环境声是提示词的一部分，而不是单独的节点。直接写："雨打铁皮屋顶、远处雷声、木炉里柴火噼啪、背景柔和的民谣吉他。"Veo 会把这些与画面分层合成。这比之后再链 ElevenLabs SFX 紧凑得多。

用参考图像锁定主角

Veo 3.1 支持参考图像做风格和角色引导。把 Nano Banana 2 人物设定页钉到画布，喂给每镜的 Veo 节点。跨剪辑身份一致——而且音频是同一遍渲染，角色的脚步声和对白与他们的动作匹配。

铺陈用 Fast，主镜头用 Standard

Veo 3.1 Fast 60-120 秒出稿；Standard 120-180 秒但细节明显更锐利、音频更保真。对 3-5 镜头短片，先用 Fast 跑一遍锁定提示词措辞，再用确认过的提示词在 Standard 上重渲开场主镜头和收尾。

用 Extend 变体把片段无缝串起来

需要超过单次 Veo 渲染长度的连续镜头时，Extend 变体在 V2V 模式下把现有片段无缝续上。先用 Veo 3.1 Standard 渲 8 秒，再把输出送进 Veo 3.1 Extend 节点配一段续写提示词。结果是一段没有可见剪辑点的更长连贯镜头。

把台词混进提示词以做同遍唇形同步

与 Kling 类似，提示词里给一行台词时 Veo 3.1 会生成对白唇形同步。高潮对白节拍写成带引号的台词："角色低声说：『我们必须现在就走。』黄昏柔光，中景特写，环境蛐蛐声，6 秒。"唇形同步在同一遍渲染。

以 1080p 导出已组装的时间线

画布上 3-5 镜头都就绪后，通过序列构建器按 1080p 原生序列导出。Veo 3.1 封顶 1080p——电影节交付 4K 时，把时间线送过 video-upscale 工具节点（2x 够用；4x 只用在主镜头上）。音频已烤盘，不用单独导音频。

提示词示例

带完整环境声场的开场。不需要单独的 SFX 或音乐节点。

Wide establishing shot of a remote cabin at dusk, rain on tin roof, distant thunder, fire crackles in wood stove, soft folk guitar in background, 8 seconds

同遍唇形同步的对白节拍。Veo 把台词与嘴部运动同步渲染。

Medium close-up. Character whispers: "We need to leave now." Soft golden hour light from camera right, ambient cricket sound, 6 seconds

一段长追逐镜头的前半段。送到 Veo Extend 续接接下来的 8 秒，不留可见剪辑点。

Continuous follow shot, character runs through wet forest at night, breathing heavily, leaves rustle, distant siren, handheld camera, 8 seconds (then continue with Veo Extend)

参数技巧

Veo 3.1 环境声在同一遍渲染——把声场直接写进提示词。

铺陈用 Fast，主镜头用 Standard——音频保真度差距明显。

对白把台词以引号写进提示词；Veo 在同一遍渲染唇形同步。

Veo 3.1 Extend 仅支持 V2V——送一段已有片段 + 一段续写提示词以做无缝多片段拼接。

输出封顶 1080p——4K 电影节交付要在下游链一个 video-upscale 工具节点。

输出预期

Veo 3.1 以 720p 或 1080p 输出，并在同一次生成中带原生同步音频——画面与声音的耦合在业界独特地紧。渲染时间：Fast 60-120 秒，Standard 120-180 秒。参考图像引导风格与角色。Extend 变体仅 V2V，用于超过单次渲染长度的连贯镜头。最终 4K 交付要在下游链 video-upscale 工具节点——Veo 自身封顶 1080p。

在 Martini 上使用 Google Veo 3.1

在 Martini 的无限画布上将 Google Veo 3.1 与其他 AI 模型连接使用。无需 GPU，免费开始。

免费开始

文档

nodes/video

其他模型教程

OpenAI

Sora 2

Sora 2 是 OpenAI 在电影感短片工作上的旗舰——真实光照、可信反射、像真正摄影指导掌镜的相机运动。基础版 Sora 2 处理 1080p 的文生视频和图生视频；Sora 2 Pro 提升保真度并解锁 15 秒片段且支持清晰度控制。对一位用周末时间起草 3-5 镜头电影节短片的独立导演，Sora 2 能达到这个水平：预可视化在剧组到位前就像成片。

查看教程

Kling

Kling 3.0

Kling 3.0 是第一个在扩散阶段就直接渲染原生 4K（3840×2160）的主流视频模型——不靠后处理放大——纹理、电影颗粒、头发、布料和皮肤的细节比任何放大器能找回的更精致。一部要进电影节投影厅的短片，这层细节地板很重要。Kling 还把 Omni Native Audio 烤进同一次生成（英文、中文、日文、韩文、西班牙文），对白唇形同步和环境声不用走独立音频链就能交付。

查看教程

如何创建 AI 短片

Google

如何使用 Google Veo 3.1 创建 AI 短片

免费试用 Google Veo 3.1

分步指南

在提示词里直接描写环境声

用参考图像锁定主角

铺陈用 Fast，主镜头用 Standard

用 Extend 变体把片段无缝串起来

把台词混进提示词以做同遍唇形同步

以 1080p 导出已组装的时间线

提示词示例

带完整环境声场的开场。不需要单独的 SFX 或音乐节点。

Wide establishing shot of a remote cabin at dusk, rain on tin roof, distant thunder, fire crackles in wood stove, soft folk guitar in background, 8 seconds

同遍唇形同步的对白节拍。Veo 把台词与嘴部运动同步渲染。

Medium close-up. Character whispers: "We need to leave now." Soft golden hour light from camera right, ambient cricket sound, 6 seconds

一段长追逐镜头的前半段。送到 Veo Extend 续接接下来的 8 秒，不留可见剪辑点。

Continuous follow shot, character runs through wet forest at night, breathing heavily, leaves rustle, distant siren, handheld camera, 8 seconds (then continue with Veo Extend)

参数技巧

Veo 3.1 环境声在同一遍渲染——把声场直接写进提示词。

铺陈用 Fast，主镜头用 Standard——音频保真度差距明显。

对白把台词以引号写进提示词；Veo 在同一遍渲染唇形同步。

Veo 3.1 Extend 仅支持 V2V——送一段已有片段 + 一段续写提示词以做无缝多片段拼接。

输出封顶 1080p——4K 电影节交付要在下游链一个 video-upscale 工具节点。

输出预期

在 Martini 上使用 Google Veo 3.1

在 Martini 的无限画布上将 Google Veo 3.1 与其他 AI 模型连接使用。无需 GPU，免费开始。

免费开始

文档

nodes/video

其他模型教程

OpenAI

Sora 2

查看教程

Kling

Kling 3.0

查看教程

如何创建 AI 短片

如何使用 Google Veo 3.1 创建 AI 短片

分步指南

在提示词里直接描写环境声

用参考图像锁定主角

铺陈用 Fast，主镜头用 Standard

用 Extend 变体把片段无缝串起来

把台词混进提示词以做同遍唇形同步

以 1080p 导出已组装的时间线

提示词示例

参数技巧

输出预期

在 Martini 上使用 Google Veo 3.1

相关功能

文档

延伸阅读

其他模型教程

Sora 2

Kling 3.0

本网站使用 Cookie

如何使用 Google Veo 3.1 创建 AI 短片

分步指南

在提示词里直接描写环境声

用参考图像锁定主角

铺陈用 Fast，主镜头用 Standard

用 Extend 变体把片段无缝串起来

把台词混进提示词以做同遍唇形同步

以 1080p 导出已组装的时间线

提示词示例

参数技巧

输出预期

在 Martini 上使用 Google Veo 3.1

相关功能

文档

延伸阅读

其他模型教程

Sora 2

Kling 3.0