OpenAI
Sora 2 是 OpenAI 在电影感短片工作上的旗舰——真实光照、可信反射、像真正摄影指导掌镜的相机运动。基础版 Sora 2 处理 1080p 的文生视频和图生视频;Sora 2 Pro 提升保真度并解锁 15 秒片段且支持清晰度控制。对一位用周末时间起草 3-5 镜头电影节短片的独立导演,Sora 2 能达到这个水平:预可视化在剧组到位前就像成片。
动手做视频渲染之前,先把镜头清单作为图像节点铺到 Martini 画布上——远景、中景、特写、反打、收尾镜头。用故事板生成器(GPT Image、FLUX、Midjourney)锁定角色、色调和场景。Sora 2 在拿到一帧强起始帧时生成的运动远好于仅凭文字。
在画布上钉一张 Nano Banana 2 人物设定页作为身份锚点。每一镜把角色参考与故事板帧一起送进 Sora 2 图生视频节点。Sora 在带图像条件时跨镜头身份一致性比每镜重新文字描述更稳。
Sora 2 懂电影语言。用真正的镜头术语:"低机位向前移动镜头,35mm 镜头,黄昏柔光从画面右侧打主光,角色穿过麦田走向镜头,轻微手持呼吸感。"这一层级的相机指引被 Sora 当作制作语言看待,产生的电影感运动远好于模糊氛围描述。
基础 Sora 2 对铺陈和大部分镜头足够。保留 Sora 2 Pro 给开场主镜头、高潮镜头或收尾——清晰度控制和 15 秒窗口重要的位置。对 3-5 镜头短片,预期 Pro 用在 1-2 个主要镜头上,其余用基础版。在短片规模上成本差异明显。
想让两镜读成同一连贯瞬间时(A 镜角色跑出画面,B 镜角色跑进画面),把 A 镜尾帧送进 frame-extraction 工具节点,再作为 B 镜起始参考。Sora 严格遵循起始帧,即使相机角度变了,剪辑也像同一世界。
所有 3-5 镜头渲染好后,送到 Martini 的序列构建器排好时间线,再作为原生序列导出到 Premiere、DaVinci 或 Final Cut。在音轨上叠对白(ElevenLabs Eleven v3 Dialogue)和环境声(ElevenLabs SFX v2)。结果是一份电影节级别的预可视化样片。
开场建立镜头。摄影术语("宽银幕镜头光晕""低机位向前移动")让 Sora 进入电影感语言。
Wide establishing shot, character silhouette walks across a misty wheat field at dawn, low-angle dolly forward, 35mm anamorphic lens flares, soft golden key light, 8 seconds
短片中段的角色镜头。加入"轻微手持呼吸感"让镜头带纪录片质感而不失构图。
Medium shot, character's face turns toward camera, wind catches loose hair, slight handheld breathing, soft rim light from behind, golden hour ambient, 6 seconds
配得上特写的细节插入。Sora 2 基础版处理微距运动很稳;Pro 留给高潮。
Close-up of weathered hands picking a single wheat stalk, shallow depth of field, soft top light, ambient bee buzz, 5 seconds
15 秒主镜头窗口用于收尾——仅 Sora 2 Pro。清晰度控制 + 更长时长 = 你想要的结尾。
Closing tag shot, character disappears behind a hill at sunset, sky burns orange, slow pull-out reveals the empty field, 12 seconds, Sora 2 Pro
一定要给 Sora 2 加图像条件——用 GPT Image/FLUX/Midjourney 出的故事板帧;纯文字提示词方差更大。
开场和收尾用 Sora 2 Pro;中段铺陈用基础版。短片预算敏感。
摄影术语("移动镜头""轮廓光""宽银幕镜头")比情绪形容词("史诗""美丽")更管用。
基础版片长保持在 12 秒以下,Pro 在 15 秒以下——更长会让提示词被稀释。
把角色参考钉到每镜提示词上,跨剪辑身份一致。
Sora 2 基础版输出 1080p,Pro 加清晰度控制下也是 1080p。真实光照和反射是这个系列的标志性能力,图像条件下的生成画面比纯文字明显更精致。基础版渲染 90-180 秒,Pro 180-240 秒。Sora 2 Pro 的 Storyboard 变体用于一次生成多镜头——单独在 create-multi-shot-video 场景里讲。
在 Martini 的无限画布上将 Sora 2 与其他 AI 模型连接使用。无需 GPU,免费开始。
免费开始Kling
Kling 3.0 是第一个在扩散阶段就直接渲染原生 4K(3840×2160)的主流视频模型——不靠后处理放大——纹理、电影颗粒、头发、布料和皮肤的细节比任何放大器能找回的更精致。一部要进电影节投影厅的短片,这层细节地板很重要。Kling 还把 Omni Native Audio 烤进同一次生成(英文、中文、日文、韩文、西班牙文),对白唇形同步和环境声不用走独立音频链就能交付。
查看教程Google Veo 3.1 把原生音频合成烤进与画面同一次生成——直接在提示词里描写环境声,Veo 与画面同步。对一部对白、脚步声、音乐床都要按时落点的独立短片来说,Veo 3.1 是最干净的端到端选择。输出最高 1080p,分 Fast 和 Standard 档,外加一个 Extend 变体可以在 V2V 模式下继续现有片段,方便多片段无缝拼接。
查看教程