谷歌Veo 3.1紧急上线硬刚Sora 2:实测之后,差距依然明显?
twitters
10-17
41

谷歌Veo 3.1紧急上线硬刚Sora 2:实测之后,差距依然明显?

2025 年,AI 视频生成的浪潮正以前所未有的速度席卷创意行业。10 月 16 日凌晨,谷歌毫无预兆地把 Veo 3.1 丢进 Google Flow 实验室,官方口径只有一句“ faster, more controllable, and ready for creators”。但所有人都知道,这是对 OpenAI Sora 2 三天前“无限量免费”杀招的紧急回应。

入口即刻开放:labs.google/fx/zh/tools/flow

一、Veo 3.1:从「视频生成模型」进化为「AI 导演助手」

早期的视频生成模型往往专注于“生成一段视频”,而 Veo 3.1 则更像一个拥有摄影语言、叙事逻辑与声音感知的 AI 影视创作工具

与前代版本相比,Veo 3.1 带来了以下关键升级:

能力新特性说明
🎥 多镜头理解与构图控制支持更复杂的场景切换与镜头语言,能理解如 “close-up shot”、“crane movement” 等电影术语。
🗣️ 音频与对白生成生成的角色对话能与口型同步,且可加入环境声、音效、背景音乐。
🖼️ 图像到视频(Image-to-Video)通过参考图像创建连贯的动画片段,保证风格统一。
🎞️ 首尾帧动画(First & Last Frame)从指定的起始与结束画面生成自然的过渡动画。
🧩 可控对象编辑支持在视频中添加或删除物体(目前音频部分仍有限制)。
🪶 SynthID 水印所有视频均自动嵌入 AI 来源识别水印,确保内容可追溯性。

可以说,Veo 不再只是一个“生成视频的模型”,而更像一个能够“理解分镜与节奏”的 AI 摄影师。


二、提示语框架:让 AI 听懂你的「导演语言」

Veo 3.1 的强大之处在于它能精准响应结构化的提示语(Prompt)。 Google 给出了一个 五段式提示框架,用以构建更完整、更具控制力的描述。

[Cinematography] + [Subject] + [Action] + [Context] + [Style & Ambiance]

这五个部分的逻辑,就像编写一段分镜头脚本:

模块说明示例
🎬 Cinematography(镜头语言)镜头类型、运动方式、构图“Aerial tracking shot of…”
👤 Subject(主体)视频中的人物或物件“a tired office worker”
🎭 Action(动作)主体的行为“rubbing his temples in exhaustion”
🌆 Context(背景)场景与环境细节“in front of an old 1980s computer”
🎨 Style & Ambiance(风格与氛围)灯光、质感、情绪“retro aesthetic, filmed on 1980s color film, slightly grainy”

一个完整的例子:

Prompt: “Medium shot, a tired corporate worker rubbing his temples in exhaustion, in front of a bulky 1980s computer in a cluttered office late at night. The scene is lit by the harsh fluorescent lights and the green glow of the monitor. Retro aesthetic, slightly grainy.”

生成效果? Veo 会拍出一段充满复古光影的“80 年代加班场景”,就像从《银翼杀手》剪下来的片段。


三、进阶技巧:像导演一样「提示」

要生成专业级的画面,仅仅描述场景还不够。Google 提供了一系列 Prompt 技巧,让你能更精准地“导演”镜头:

🎥 1. 用电影语言控制画面

  • 镜头类型:wide shot / close-up / over-the-shoulder
  • 镜头运动:panning / dolly-in / crane-up / handheld
  • 构图效果:low angle / shallow depth of field / Dutch tilt 这些术语能显著提升 Veo 对意图的理解精度。

🔊 2. 精确描述音效与对白

Veo 3.1 的一大亮点是“听得懂剧本”。

你可以像编写剧本一样加入:

“Get in the car!” she shouts.
SFX: distant thunder
Ambient noise: rain tapping on the windshield

模型会在视频中自动同步嘴型、配音和环境声。 这意味着--Veo 不仅能“拍”视频,还能“配”声音。


🚫 3. 使用否定提示(Negative Prompting)

告诉模型“不要什么”,往往比“要什么”更关键。

错误写法:

“A landscape with no people.”

更有效的写法:

“An empty, desolate landscape with no visible signs of human life, no buildings or roads.”


🪄 4. 结合 Gemini 辅助创作

如果你只写了简单提示,比如:

“A man walking in the city.”

可以让 Gemini 模型 扩写为:

“A cinematic dolly shot of a man walking through a neon-lit Tokyo alleyway at night, reflections on the wet pavement, gentle rain falling, melancholy jazz playing softly in the background.”

这样一来,生成的视频将更具“导演质感”。


四、进阶工作流:把想法变成分镜

Google 还在文中分享了三种常用工作流,帮助创作者更系统地控制 Veo 的生成结果:

🎞️ Workflow 1:首尾帧动画

  • 先用 Gemini 生成“开场画面”和“结尾画面”;
  • 再让 Veo 3.1 自动生成中间动画过渡与音效; → 适用于 logo 动画、片头片尾、转场。

🎭 Workflow 2:角色与场景 Ingredients

  • 先生成角色参考图、场景布景(称为 “ingredients”);
  • 再让 Veo 以这些图为输入,生成多镜头视频; → 适合制作短剧情、广告片、访谈类视频。

🕒 Workflow 3:时间轴式 Prompt(Timestamp Prompting)

可以在一个提示中指定不同时间段的镜头内容:

[00:00-00:02] Aerial shot of a desert highway at sunrise.
[00:02-00:04] A close-up of a motorcyclist adjusting goggles.
[00:04-00:06] Camera follows as the bike speeds into the horizon.

这种方式能让 Veo 精确控制镜头节奏与场景过渡,堪比电影分镜脚本。


五、实践建议与使用提醒

  • 生成规格:支持 720p / 1080p;时长 4、6、8 秒;支持 16:9 与 9:16 竖屏。

  • 访问方式:通过 Google Cloud Vertex AI 接口使用,目前处于预览(preview)阶段。

  • 版权与标识:所有输出均包含 SynthID 水印,确保可追溯与合规。

  • 创作建议

  • 多尝试不同风格(纪录片、广告、动画等);

  • 在 prompt 中明确光源、节奏、时间、情绪;

  • 可将 Veo 与 Gemini、Imagen 搭配使用,获得最优画面与叙事。


✍️ 结语:AI 视频创作的新范式

Veo 3.1 的出现,让“Prompt 即剧本”的概念真正落地。 你不需要昂贵设备、不需要剪辑经验,只要一条精心设计的提示语,就能让 AI 拍出一段有风格、有声音、有情绪的视频。

未来的创作门槛,不在于设备,而在于 “如何对 AI 说话”。 正如这份指南揭示的真相:

“Every great video starts with a great prompt.”

Sora 2 像 天赋型选手,镜头感、审美、节奏全是“天生”的; Veo 3.1 则是 技术型学霸,把“控制”拆成无数旋钮摆在你面前。 一个让你爽,一个让你改。 短期看,Sora 2 依旧会是流量宠儿;长期看,当“可控”成为商业刚需,谷歌的付费墙未必拦得住真正的生产者。

下一次升级,OpenAI 只要补齐“编辑”短板,Veo 3.1 就可能沦为昂贵的过渡品。 但在今天,如果你想让同一张脸在 64 秒里不换演员、不穿帮、还能加龙加剑加爆炸,整个地球上只有 Veo 3.1 能立刻给你 exporting。



微信扫描下方的二维码阅读更多精彩内容

打赏
当AI开始“发现”癌症治疗新途径:Google Gemma 模型的重大突破
上一篇
把"深度思考"做成四档旋钮——豆包 1.6 系列新品全景拆解
下一篇
标签
#AI #AI生图 #Nano Banana #即梦 #可灵 #科技 #豆包 #人像 #chatgpt #产品设计 #OpenAI #模型 #开源 #城市名片 #Gemini #马斯克 #Google #3D #写真 #AI视频 #UI #claude #计算机视觉 #苹果 #DeepSeek #电商 #iPhone #播客 #谷歌 #AI设计 #腾讯 #特斯拉 #grok #阿里 #sora #tesla #IDE #买车 #选车 #干货 #搜索 #汽车 #机器人 #Anthropic #通义 #space #星舰 #智慧城市 #OCR #Atlas #微信 #AI手办 #混元 #英伟达 #NVIDIA #宇宙 #veo #百度 #浏览器 #地理空间 #Agent #工作流 #自动化 #AI编码 #iPhone17 #AI搜索 #手办 #小米 #具身智能 #Gemma #火山引擎 #古风美学 #kimi #Qwen #小鹏 #李飞飞 #芯片 #思维链 #Meta #人工智能 #摄影艺术 #AI推理 #商业思维 #罗永浩 #西贝 #食品 #预制菜 #AI文字 #微软 #壁纸 #雷军 #智谱 #星际 #彗星 #Figure #数码 #旅游 #Broadcom #MacBook #Vision Pro #iPad #抖音 #多模态 #VR #RTFM #飞桨 #PaddlePaddle #Qoder #LLM #游戏 #海报 #卫星影像 #复古 #定格 #节日 #万圣节 #工具 #黄仁勋 #肖像 #Apple #金融 #量化 #炒股 #早报 #世界模型 #表情包 #百度世界 #文心 #萝卜快跑 #数字人 #千帆 #小程序 #群聊 #社交 #Optimus #擎天柱 #神经网络 #DeepMind #Antigravity #Cloudflare #bug #运维 #技术事故 #AI教育 #超级计算 #核能源 #AI数学 #小红书 #创业思维 #第一性原理 #问题拆解 #副业增长 #吴恩达 #行业洞察 #行业分析 #产业机遇 #投资方向 #AI手机 #安全对齐 #奖励机制 #插件 #Cursor #可穿戴 #AI硬件 #交流 #攻略 #资料 #脑机
生成中...
点赞是美意,赞赏是鼓励