Google 的 Veo 3 是 Martini 上唯一能在生成视频的同时生成同步音频的视频模型。其他所有模型都生成需要单独音频处理的无声视频。对于广告来说,这是变革性的——你在一次生成中获得环境音、音效甚至音乐。最新版本(Veo 3.1)提供标准和快速两个档位,并支持参考图像。
Veo 3 的关键技巧:在视觉描述旁描述声音。不要只写"咖啡店场景",而是写"咖啡师用高音嘶嘶声蒸奶,将其倒入陶瓷杯中发出轻柔的溅水声,背景中轻柔的交谈声。"模型将音频与视觉动作同步——当蒸汽可见时发出嘶嘶声,溅水声与倒出动作对齐。
标准档位产生更好的时间一致性(帧间更流畅的运动)和更高质量的音频同步——用于最终广告输出。快速档位更便宜更快,适合测试概念和迭代提示词想法。两个档位之间的音频质量差异显著:标准的音频听起来更自然、同步更好。
Veo 3.1 支持参考图像——连接产品照片或场景设置来引导视觉构图,同时让 Veo 处理动画和音频生成。这将图像转视频的品牌一致性与 Veo 独特的音频生成能力结合起来。
将提示词写成涵盖所有感官的导演简报:"黎明时分的温馨面包店大全景。面包师将新鲜面包滑入砖烤炉。火的噼啪声,窗外柔和的晨鸟声,以及烤炉温暖的嗡嗡声。相机透过窗户慢慢推进。"你包含的每个声音描述都给模型提供了具体的同步音频目标。
餐饮广告——这个提示词之所以有效,是因为每个视觉动作都有匹配的声音线索。"令人满意的叮当声"与冰块碰杯同步,"液体倒出"与视觉倒出匹配。在其他任何模型上,你需要单独添加这些音频。
A bartender crafts a colorful cocktail in slow motion — ice cubes tumbling into the glass with a satisfying clink, liquid swirling in vibrant layers, finished with a citrus twist. Ambient bar sounds, ice clinking, liquid pouring. Moody bar lighting with neon accents, 16:9
带场景内声音的生活方式蒙太奇——Veo 3 能生成一系列独特的同步声音(闹钟、吱嘎声、嘶嘶声、点击声),让视频无需任何后期音频制作就具有精致、制作就绪的感觉。
Morning routine montage: alarm rings, feet touch wooden floor with a soft creak, coffee machine hisses and gurgles, toast pops up with a click. Quick cuts between actions, natural room sounds, warm morning light, lifestyle brand commercial
最终广告输出始终使用标准档位——音频同步质量比快速档位好很多。快速档位留给草稿和概念验证。
具体描述声音:"盒子落在桌子上的轻柔砰声"比仅写"盒子声音"产生更好的音频。声音线索越具体描述性,同步效果越好。
Veo 3 自动生成音频。如果你需要同一广告的静音版本(用于社交媒体自动播放静音),可以在任何编辑器中静音视频——这比为无声模型的输出添加音频要容易。
对于需要旁白解说的广告,用 Veo 3 生成视频+环境音,然后在画布上添加 TTS 旁白音轨。Veo 的环境音作为底层音轨使用。
Veo 3 是 Martini 上唯一生成原生音频的视频模型。这使其在广告制作中具有独特的效率——你在一次生成步骤中获得接近完整的广告素材。权衡:它对人物主题的视觉质量落后于 Kling 3.0 Pro,物理模拟落后于 Sora 2。当音频是创意概念的一部分时使用 Veo 3;以人物为重点的广告使用 Kling 3.0;产品物理镜头使用 Sora 2。
在 Martini 的无限画布上将 Veo 3 与其他 AI 模型连接使用。无需 GPU,免费开始。
免费开始OpenAI
Sora 2 是 OpenAI 的视频模型,其突出优势是物理模拟——液体倒出真实、织物自然垂落、物体以可信的重量和动量互动。对于视频广告,这意味着产品镜头看起来物理上令人信服,没有其他模型常见的"AI 漂浮感"。在 Martini 上,Sora 2 费用为 10 秒片段 100 积分或 15 秒 150 积分,只有两种宽高比:16:9(横版)和 9:16(竖版)。没有质量档位、速度选项或其他可调参数——Sora 2 是一个零配置模型,所有创意精力都投入到提示词和参考图像中。
查看教程Kling
Kling 3.0 是以人物为主的视频广告的最佳模型。它生成 Martini 上所有模型中最自然的人体运动、面部表情和嘴唇动作。标准和专业两个质量档位,从快速分镜到最终广告品质输出都能胜任。如果你的视频广告展示的是一个人——喝咖啡、拆箱产品、给出推荐——Kling 3.0 Pro 应该是你的首选。
查看教程Minimax
Minimax 的 Hailuo 02 是视频广告制作的主力——可靠地生成干净、构图良好的产品广告,具有一致的色彩准确度。Sora 2 擅长物理、Kling 3.0 擅长人物,而 Hailuo 02 擅长商业级精致:产品揭示、美妆镜头和食品内容,具有广告公司客户期望的那种干净、可控的构图。其标准和专业档位让你便宜地迭代、高质量地交付。
查看教程