视频世界模型：机器人理解物理规律的“开天眼”时刻？

前几天刷到 NVIDIA 机器人团队负责人 Jim Fan 在 Sequoia AI Ascent 上的演讲《Robotics: Endgame》，20分钟看完我直接把链接甩给了几个做机器人和 AI 的朋友：“这可能是最近最带劲的一场分享。”

Jim Fan 去年讲《Physical Turing Test》，今年直接端出续集--核心就一句话：

大语言模型走通的路，机器人也能抄，而且已经抄到关键节点了。

🚀 从 LLM 的“终局”说起

演讲开头他讲了个小故事：2016年，他在 OpenAI，和 Jensen Huang、Elon Musk 一起给一台 DGX-1 签名。那时候大家还觉得 GPU 就是打游戏+科学计算，谁想到今天 AI 全靠它起飞？

他借 Ilya Sutskever 那句名言切入主题：

“如果你相信 deep learning，它就会相信你。”

LLM 这几年的路径清晰可见： ✅ 海量预训练 → ✅ 对齐微调 → ✅ 推理增强 → ✅ 自动研究短短几年，“语言智能”被彻底重构。

Jim Fan 说：“我看着 LLM 的进展，心里其实挺‘嫉妒’的--机器人领域一直没这么顺。”

但他坚信：

机器人可以走完全一样的路，只是把‘下一个 token’换成‘下一个物理世界状态’。 这就是他反复强调的--The Great Parallel（伟大平行）。

❌ VLA 已经不够用了

过去几年，Vision-Language-Action（VLA）模型是主流：视觉+语言+动作塞进一个大模型，看起来很全能。

但 Jim Fan 直言：

它还差得远。

问题在哪？

语言参数占比太高，擅长记名词、知识、指令，却不懂真正的物理“动词”。
比如它能准确把可乐罐放到 Taylor Swift 海报上（因为见过类似场景），但在真实复杂的物理交互中表现平平。
语言在拖后腿。

✅ 两条腿走路：视频世界模型 + WAM

他提出的替代方案是“双轨并行”：

1. 视频世界模型（Video World Models）

用海量视频预训练，让模型自己学会物理规律。

那些 AI 生成的“视频 slop”（比如猫弹班卓琴、狗开飞船）看起来荒诞，但规模化之后，模型会在像素级别涌现出重力、浮力、碰撞、光照反射等隐式物理规则。

这其实就是一个神经网络版本的物理引擎，而且不需要你手写任何公式。

他放了 VEO-3 的演示：模型在像素空间预测未来画面，甚至能解决迷宫问题。 Jim Fan 笑着说：“如果没人看，几何也许是可选的。”（全场爆笑）

2. World Action Models（WAM）--这才是重点！

在视频世界模型的基础上，再做 “action fine-tuning”：让模型同时预测下一帧世界状态 + 对应的机器人动作。

他演示了 DreamZero 等系统：

机器人执行任务时，你能实时看到它“脑子里在想什么”（预测的未来画面）。预测准 → 动作稳；预测崩 → 动作失败。

这种方式让 Vision 和 Action 真正平等，都成为一等公民。

演讲里他直接喊出那句梗：

“VLA 安息，WAM 万岁。”

💡 数据才是真正的瓶颈

模型架构只是起点，数据才是核心。

传统遥操作（teleoperation）效率太低：戴 VR 手柄控制机械臂，一天也收集不了多少高质量数据。

Jim Fan 重点介绍了 UMI（Universal Manipulation Interface）：

用低成本传感器 + 自动化流程，实现大规模、多样化、高质量的机器人操作数据收集。
目标是：让数据像互联网文本一样“取之不尽”。

🔮 未来已来？

这场演讲让我想到：

当机器人能“看视频学物理”，还能“预演未来再行动”-- 它们离真正理解世界，可能只差一个“预训练-微调”的循环。

Jim Fan 的愿景很清晰：

不是教机器人物理公式，而是让它们从像素中“悟”出物理。

这不再是科幻，而是正在发生的“机器人 endgame”。

你怎么看？

机器人 #AI #视频世界模型 #WAM #JimFan #NVIDIA #物理智能

加入讨论

4 条评论

烈焰狂战 21 小时前

这个“伟大平行”的比喻太戳了！我一直觉得机器人学总在追LLM的尾气，现在终于看到有人把“下一个物理状态”当token来搞，感觉像打通了任督二脉。不过视频世界模型真能靠AI生成的“猫弹琴”学会重力？有点玄，但Demo里迷宫预测确实有点东西……
终焉旅者 11 小时前

“如果没人看，几何也许是可选的”这句笑死，但细想真有点道理——我们学物理要背公式，AI却从像素里自己悟出来了？那以后机器人会不会比我们还懂“水往低处流”？😅 不过视频slop真能教会重力？有点担心它学到的是“猫会飞”而不是牛顿定律…
PopsMcCoy 10 小时前

“语言在拖后腿”这句简直说到心坎里了！以前总觉得机器人学卡在“知道但做不到”，原来问题出在语言模型太爱抢戏。现在换成视频世界模型+WAM，感觉像给机器人配了个物理直觉外挂——以后它摔跤前自己先预演一遍，是不是比人类学走路还快？😄
Luminous明 6 小时前

“语言在拖后腿”这句太真实了！以前调机器人总感觉它在“背课文”，指令记得清清楚楚，一碰现实就手忙脚乱。现在换成视频世界模型，像给它装了个“物理直觉”——不用死记硬背，直接从画面里学会“怎么动”。突然觉得，AI学物理比我们轻松多了，毕竟不用考力学期末考😂

视频世界模型如何推动机器人理解物理规律？

机器人抄LLM作业？Jim Fan的演讲让我直呼内行

视频世界模型：机器人理解物理规律的“开天眼”时刻？

🚀 从 LLM 的“终局”说起

❌ VLA 已经不够用了

✅ 两条腿走路：视频世界模型 + WAM

1. 视频世界模型（Video World Models）

2. World Action Models（WAM）--这才是重点！

💡 数据才是真正的瓶颈

🔮 未来已来？

机器人 #AI #视频世界模型 #WAM #JimFan #NVIDIA #物理智能

加入讨论

延伸阅读

桌面级万亿参数算力普及，个人开发者能否颠覆AI创新格局？

AI 生成内容时，为什么 HTML 比 Markdown 更适合复杂场景？

OpenClaw的默认配置为何会导致实例暴露？

Can Anthropic's 140B Annual Revenue Sustain its Dominance Against OpenAI?

OpenClaw 安装过程中有哪些关键注意点

Benchmark模式中的各项指标（如Pass Rate、Latency等）对技能优化的具体指导意义是什么？