
2025 年,AI 视频生成的浪潮正以前所未有的速度席卷创意行业。10 月 16 日凌晨,谷歌毫无预兆地把 Veo 3.1 丢进 Google Flow 实验室,官方口径只有一句“ faster, more controllable, and ready for creators”。但所有人都知道,这是对 OpenAI Sora 2 三天前“无限量免费”杀招的紧急回应。
入口即刻开放:labs.google/fx/zh/tools/flow
一、Veo 3.1:从「视频生成模型」进化为「AI 导演助手」
早期的视频生成模型往往专注于“生成一段视频”,而 Veo 3.1 则更像一个拥有摄影语言、叙事逻辑与声音感知的 AI 影视创作工具。
与前代版本相比,Veo 3.1 带来了以下关键升级:
| 能力 | 新特性说明 |
|---|---|
| 🎥 多镜头理解与构图控制 | 支持更复杂的场景切换与镜头语言,能理解如 “close-up shot”、“crane movement” 等电影术语。 |
| 🗣️ 音频与对白生成 | 生成的角色对话能与口型同步,且可加入环境声、音效、背景音乐。 |
| 🖼️ 图像到视频(Image-to-Video) | 通过参考图像创建连贯的动画片段,保证风格统一。 |
| 🎞️ 首尾帧动画(First & Last Frame) | 从指定的起始与结束画面生成自然的过渡动画。 |
| 🧩 可控对象编辑 | 支持在视频中添加或删除物体(目前音频部分仍有限制)。 |
| 🪶 SynthID 水印 | 所有视频均自动嵌入 AI 来源识别水印,确保内容可追溯性。 |
可以说,Veo 不再只是一个“生成视频的模型”,而更像一个能够“理解分镜与节奏”的 AI 摄影师。
二、提示语框架:让 AI 听懂你的「导演语言」
Veo 3.1 的强大之处在于它能精准响应结构化的提示语(Prompt)。 Google 给出了一个 五段式提示框架,用以构建更完整、更具控制力的描述。
[Cinematography] + [Subject] + [Action] + [Context] + [Style & Ambiance]
这五个部分的逻辑,就像编写一段分镜头脚本:
| 模块 | 说明 | 示例 |
|---|---|---|
| 🎬 Cinematography(镜头语言) | 镜头类型、运动方式、构图 | “Aerial tracking shot of…” |
| 👤 Subject(主体) | 视频中的人物或物件 | “a tired office worker” |
| 🎭 Action(动作) | 主体的行为 | “rubbing his temples in exhaustion” |
| 🌆 Context(背景) | 场景与环境细节 | “in front of an old 1980s computer” |
| 🎨 Style & Ambiance(风格与氛围) | 灯光、质感、情绪 | “retro aesthetic, filmed on 1980s color film, slightly grainy” |
一个完整的例子:
Prompt: “Medium shot, a tired corporate worker rubbing his temples in exhaustion, in front of a bulky 1980s computer in a cluttered office late at night. The scene is lit by the harsh fluorescent lights and the green glow of the monitor. Retro aesthetic, slightly grainy.”
生成效果? Veo 会拍出一段充满复古光影的“80 年代加班场景”,就像从《银翼杀手》剪下来的片段。
三、进阶技巧:像导演一样「提示」
要生成专业级的画面,仅仅描述场景还不够。Google 提供了一系列 Prompt 技巧,让你能更精准地“导演”镜头:
🎥 1. 用电影语言控制画面
- 镜头类型:wide shot / close-up / over-the-shoulder
- 镜头运动:panning / dolly-in / crane-up / handheld
- 构图效果:low angle / shallow depth of field / Dutch tilt 这些术语能显著提升 Veo 对意图的理解精度。
🔊 2. 精确描述音效与对白
Veo 3.1 的一大亮点是“听得懂剧本”。
你可以像编写剧本一样加入:
“Get in the car!” she shouts.
SFX: distant thunder
Ambient noise: rain tapping on the windshield
模型会在视频中自动同步嘴型、配音和环境声。 这意味着--Veo 不仅能“拍”视频,还能“配”声音。
🚫 3. 使用否定提示(Negative Prompting)
告诉模型“不要什么”,往往比“要什么”更关键。
错误写法:
“A landscape with no people.”
更有效的写法:
“An empty, desolate landscape with no visible signs of human life, no buildings or roads.”
🪄 4. 结合 Gemini 辅助创作
如果你只写了简单提示,比如:
“A man walking in the city.”
可以让 Gemini 模型 扩写为:
“A cinematic dolly shot of a man walking through a neon-lit Tokyo alleyway at night, reflections on the wet pavement, gentle rain falling, melancholy jazz playing softly in the background.”
这样一来,生成的视频将更具“导演质感”。
四、进阶工作流:把想法变成分镜
Google 还在文中分享了三种常用工作流,帮助创作者更系统地控制 Veo 的生成结果:
🎞️ Workflow 1:首尾帧动画
- 先用 Gemini 生成“开场画面”和“结尾画面”;
- 再让 Veo 3.1 自动生成中间动画过渡与音效; → 适用于 logo 动画、片头片尾、转场。
🎭 Workflow 2:角色与场景 Ingredients
- 先生成角色参考图、场景布景(称为 “ingredients”);
- 再让 Veo 以这些图为输入,生成多镜头视频; → 适合制作短剧情、广告片、访谈类视频。
🕒 Workflow 3:时间轴式 Prompt(Timestamp Prompting)
可以在一个提示中指定不同时间段的镜头内容:
[00:00-00:02] Aerial shot of a desert highway at sunrise.
[00:02-00:04] A close-up of a motorcyclist adjusting goggles.
[00:04-00:06] Camera follows as the bike speeds into the horizon.
这种方式能让 Veo 精确控制镜头节奏与场景过渡,堪比电影分镜脚本。
五、实践建议与使用提醒
-
生成规格:支持 720p / 1080p;时长 4、6、8 秒;支持 16:9 与 9:16 竖屏。
-
访问方式:通过 Google Cloud Vertex AI 接口使用,目前处于预览(preview)阶段。
-
版权与标识:所有输出均包含 SynthID 水印,确保可追溯与合规。
-
创作建议:
-
多尝试不同风格(纪录片、广告、动画等);
-
在 prompt 中明确光源、节奏、时间、情绪;
-
可将 Veo 与 Gemini、Imagen 搭配使用,获得最优画面与叙事。
✍️ 结语:AI 视频创作的新范式
Veo 3.1 的出现,让“Prompt 即剧本”的概念真正落地。 你不需要昂贵设备、不需要剪辑经验,只要一条精心设计的提示语,就能让 AI 拍出一段有风格、有声音、有情绪的视频。
未来的创作门槛,不在于设备,而在于 “如何对 AI 说话”。 正如这份指南揭示的真相:
“Every great video starts with a great prompt.”
Sora 2 像 天赋型选手,镜头感、审美、节奏全是“天生”的; Veo 3.1 则是 技术型学霸,把“控制”拆成无数旋钮摆在你面前。 一个让你爽,一个让你改。 短期看,Sora 2 依旧会是流量宠儿;长期看,当“可控”成为商业刚需,谷歌的付费墙未必拦得住真正的生产者。
下一次升级,OpenAI 只要补齐“编辑”短板,Veo 3.1 就可能沦为昂贵的过渡品。 但在今天,如果你想让同一张脸在 64 秒里不换演员、不穿帮、还能加龙加剑加爆炸,整个地球上只有 Veo 3.1 能立刻给你 exporting。
微信扫描下方的二维码阅读更多精彩内容

声明:本站所有文章,如无特殊说明或标注,均为橙市播客原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
