Vidu
在 Martini 上用 Vidu Reference-to-Image 生成一致角色静态图——每次生成接受 1-7 张参考图,输出的人物静态图直接流入 Vidu 视频节点做匹配运动。Vidu 的参考流程为图到视频的角色流水线优化:同一模型家族在静态图上锁身份、也处理运动,消除模态边界的跨模型身份偏移。计划下游出角色视频内容的制作人,Vidu Reference-to-Image 是最干净的单供应商路径。
Vidu Reference-to-Image 每次生成接受最多 7 张参考输入。建参考堆栈:规范脸肖像(1 号槽位)、服装参考(2 号)、姿势参考(3 号)、光线情绪板(4 号)、场景静态图(5 号)、配饰参考(6-7 号)。模型平衡 7 个参考;1 号槽位承载脸部身份,其他引导语境。
Vidu 的差异化是图到视频的单供应商角色连贯。下游是 Vidu 视频节点(Q2 或 Q3)的话就在这里生成人物静态图——同一训练分布跨模态承载身份。下游是 Sora 2 或 Kling 3 的话 Nano Banana 2 是静态图更强的选择。可能时静态图模型匹配视频模型。
和 Nano Banana 2 一样,Vidu 从参考读身份,不从提示词读。围绕变化的部分写提示词:姿势、表情、场景、光线、动作。"同一人物,在森林里走,金色时分,休闲徒步装,轻便背包,看向前方,微笑,三四分之一角度。"身份留在参考里;其他通过提示词走。
从同一画布跑三次 Vidu Reference-to-Image 生成——正面、三四分之一(45 度侧面)、全侧面。每次共享 1 号槽位脸参考;只换角度提示词。这三帧设定页成为下游 Vidu 视频节点的主参考;同一模型家族意味着更紧的静态图到动态交接一致性。
分集系列(12 周 AI 角色内容)按集设定复制 Vidu Reference-to-Image 节点。同一 1 号槽位脸参考;每集特定的场景/服装在 2-5 号槽位;每集特定提示词。每集再链到 Vidu Q2 或 Q3 视频做运动镜头。静态图和动态之间的模型连贯性是关键优势。
把 Vidu Reference-to-Image 输出作为 Vidu Q2 或 Q3 视频节点的起始帧接上。Q2 接受 1-7 张人物参考,匹配这个静态图的参考流程。Q3 是通用视频基线。同一角色身份从静态图带到运动——留在 Vidu 家族内是画布上最干净的角色到视频流水线。
Vidu 角色流水线的锚点帧。1 号槽位在每次下游静态图和视频生成中重用。
[Reference slot 1: canonical face portrait] + Generate the canonical front-view character still. Studio lighting, neutral grey background, sharp focus, three-quarter body framing, 1024x1024 resolution.
为每集特定场景的多参考。1 号 = 脸,2 号 = 服装语境。Vidu 平衡两者。
[Slot 1: face] + [Slot 2: wardrobe moodboard - hiking apparel] + Same character, walking through a forest at golden hour, casual hiking outfit, light backpack, looking forward, slight smile, three-quarter angle.
为竖版短视频的分集内容帧。竖版宽高比直接喂到 Vidu Q2 竖版视频。
[Slot 1: face] + [Slot 2: location reference - urban rooftop at sunset] + Same character, standing on rooftop at sunset, business casual outfit (open collar shirt, dark trousers), looking out at the skyline, contemplative expression, profile angle, 9:16 vertical.
更丰富语境的三参考流程。姿势参考帮 Vidu 一致地组合肢体语言。
[Slots 1-3: face + wardrobe + pose reference] + Same character at a coffee shop counter morning light, holding a takeaway cup, looking three-quarter to camera right, slight smile, casual outfit (cream sweater, jeans), 4:5 social aspect.
1 号槽位放规范脸。永远。换顺序会破坏锁定。
高风险主静态图用 7 张参考,变体和探索用 1-3 张。每张参考加处理时间。
静态图模型匹配下游视频模型。Vidu Reference-to-Image 到 Vidu Q2/Q3 是单供应商流水线;静态图和动态跨厂商混合会引入偏移。
分集内容把 1 号槽位参考和提示词骨架存成 Martini 模板。每集用同一角色锁定加新场景提示词重用。
宽高比对下游视频很重要。静态图生成时用计划视频片段一样的比例——视频节点重新裁切会引入构图偏移。
人物主导镜头(1-7 张人物参考)配 Vidu Q2 视频,通用运动配 Vidu Q3。Q1 每次调用需要多张参考图。
Vidu Reference-to-Image 返回 1024x1024 或矩形输出(按比例可配),从同一 1 号槽位参考跨 30+ 次生成保持约 90% 角色身份。每个输出 20-40 秒生成。每次生成最多 7 张参考输入。输出在画布上落成锁定静态图——主要下游是 Vidu Q2 或 Q3 视频节点做运动镜头,整个角色流水线保留在 Vidu 模型家族内以获得更紧的静态图到动态一致性。
在 Martini 的无限画布上将 Vidu Reference-to-Image 与其他 AI 模型连接使用。无需 GPU,免费开始。
免费开始在 Nano Banana 2 上一次建好 AI 人设,在 Martini 画布上出能跨姿势、服装、场景切换的人物设定页。Nano Banana 2 是栈里最强的脸部锁定:它接受最多 10 张参考图,输出 1K、2K 或 4K,从同一规范参考跨 50+ 次生成保持脸部一致。一周一更、12 周保持一个人设一致的 AI 影响者制作人,这就是关键模型——链上其他模型都从这里继承锁定。
查看教程Black Forest Labs
在 Martini 上用 FLUX Kontext 把锁定的角色编辑到新服装、场景和姿势——它专门为指令式图像编辑而建,能保持主体身份。Nano Banana 2 生成规范人物设定页,FLUX Kontext 就是接收那张锁定静态图、在不丢脸的前提下修改它的服装/场景编辑器。两模型链(Nano Banana 2 锁身份、FLUX Kontext 换服装)是画布上最干净的角色一致性流水线。
查看教程