视频世界模型如何推动机器人理解物理规律?

4 参与者

视频世界模型:机器人理解物理规律的“开天眼”时刻?

前几天刷到 NVIDIA 机器人团队负责人 Jim Fan 在 Sequoia AI Ascent 上的演讲《Robotics: Endgame》,20分钟看完我直接把链接甩给了几个做机器人和 AI 的朋友:“这可能是最近最带劲的一场分享。”

Jim Fan 去年讲《Physical Turing Test》,今年直接端出续集--核心就一句话:

大语言模型走通的路,机器人也能抄,而且已经抄到关键节点了。


🚀 从 LLM 的“终局”说起

演讲开头他讲了个小故事:2016年,他在 OpenAI,和 Jensen Huang、Elon Musk 一起给一台 DGX-1 签名。那时候大家还觉得 GPU 就是打游戏+科学计算,谁想到今天 AI 全靠它起飞?

他借 Ilya Sutskever 那句名言切入主题:

如果你相信 deep learning,它就会相信你。

LLM 这几年的路径清晰可见: ✅ 海量预训练 → ✅ 对齐微调 → ✅ 推理增强 → ✅ 自动研究 短短几年,“语言智能”被彻底重构。

Jim Fan 说:“我看着 LLM 的进展,心里其实挺‘嫉妒’的--机器人领域一直没这么顺。”

但他坚信:

机器人可以走完全一样的路,只是把‘下一个 token’换成‘下一个物理世界状态’。 这就是他反复强调的--The Great Parallel(伟大平行)


❌ VLA 已经不够用了

过去几年,Vision-Language-Action(VLA)模型是主流:视觉+语言+动作塞进一个大模型,看起来很全能。

但 Jim Fan 直言:

它还差得远。

问题在哪?

  • 语言参数占比太高,擅长记名词、知识、指令,却不懂真正的物理“动词”
  • 比如它能准确把可乐罐放到 Taylor Swift 海报上(因为见过类似场景),但在真实复杂的物理交互中表现平平
  • 语言在拖后腿

✅ 两条腿走路:视频世界模型 + WAM

他提出的替代方案是“双轨并行”:

1. 视频世界模型(Video World Models)

海量视频预训练,让模型自己学会物理规律。

那些 AI 生成的“视频 slop”(比如猫弹班卓琴、狗开飞船)看起来荒诞,但规模化之后,模型会在像素级别涌现出重力、浮力、碰撞、光照反射等隐式物理规则

这其实就是一个神经网络版本的物理引擎,而且不需要你手写任何公式

他放了 VEO-3 的演示:模型在像素空间预测未来画面,甚至能解决迷宫问题。 Jim Fan 笑着说:“如果没人看,几何也许是可选的。”(全场爆笑)


2. World Action Models(WAM)--这才是重点!

在视频世界模型的基础上,再做 “action fine-tuning”: 让模型同时预测下一帧世界状态 + 对应的机器人动作

他演示了 DreamZero 等系统:

机器人执行任务时,你能实时看到它“脑子里在想什么”(预测的未来画面)。 预测准 → 动作稳;预测崩 → 动作失败。

这种方式让 Vision 和 Action 真正平等,都成为一等公民。

演讲里他直接喊出那句梗:

“VLA 安息,WAM 万岁。”


💡 数据才是真正的瓶颈

模型架构只是起点,数据才是核心

传统遥操作(teleoperation)效率太低:戴 VR 手柄控制机械臂,一天也收集不了多少高质量数据。

Jim Fan 重点介绍了 UMI(Universal Manipulation Interface)

  • 用低成本传感器 + 自动化流程,实现大规模、多样化、高质量的机器人操作数据收集。
  • 目标是:让数据像互联网文本一样“取之不尽”

🔮 未来已来?

这场演讲让我想到:

当机器人能“看视频学物理”,还能“预演未来再行动”-- 它们离真正理解世界,可能只差一个“预训练-微调”的循环。

Jim Fan 的愿景很清晰:

不是教机器人物理公式,而是让它们从像素中“悟”出物理。

这不再是科幻,而是正在发生的“机器人 endgame”。

你怎么看?

机器人 #AI #视频世界模型 #WAM #JimFan #NVIDIA #物理智能

加入讨论

4 条评论

延伸阅读