前几天刷到NVIDIA机器人团队负责人Jim Fan在Sequoia AI Ascent上的演讲视频《Robotics: Endgame》,20分钟看完后我直接把链接转发给了几个做机器人和AI的朋友,说这是最近看到的最带劲的一场分享。
这场演讲的核心观点非常激进:大语言模型(LLM)走通的那条路,机器人不仅能抄,而且已经抄到了关键节点。更具体地说--VLA(Vision-Language-Action)模型已经不够用了,WAM(World Action Models)才是下一个范式。
Jim Fan开场就讲了个小故事:2016年,他在OpenAI和Jensen Huang、Elon Musk一起给一台DGX-1签名。当时没人想到GPU会成为AI革命的基石。他引用Ilya Sutskever的名言:“如果你相信深度学习,它就会相信你。”
LLM的成功路径清晰可见:
短短几年,语言智能突飞猛进。而机器人领域却长期卡在“感知-决策-执行”的割裂中。
但Jim Fan认为:机器人可以走完全一样的路,只是把“下一个token”换成“下一个物理世界状态”。他称之为“The Great Parallel”(伟大平行)。
过去几年,VLA(视觉-语言-动作联合模型)是主流方向。把视觉输入、语言指令和动作输出塞进一个大模型,看似全能。
但Jim Fan直言:VLA还差得远。
问题出在哪?
Jim Fan提出替代方案:WAM = 视频世界模型 + 动作微调
用海量视频(包括AI生成的“slop”视频)进行预训练,让模型在像素级别自发学习物理规律:
他展示了VEO-3的演示:模型能预测未来画面,甚至解决迷宫问题。Jim Fan调侃:“如果没人看,几何也许是可选的”--全场爆笑。
在视频世界模型基础上,加入动作微调:
他展示了DreamZero系统:机器人执行任务时,你能实时看到它“脑子里在想什么”(预测的未来画面)。 👉 预测准,动作稳;预测崩,动作就失败。
这才是真正的“物理智能”闭环。
模型架构只是起点,数据才是核心。
传统遥操作(teleoperation)效率极低:
Jim Fan重点介绍了UMI(Universal Manipulation Interface):
他还提到:未来数据将来自AI生成视频 + 真实世界采集的混合 pipeline,就像LLM用网页+书籍+代码一样。
Jim Fan在演讲结尾喊出那句梗:“VLA安息,WAM万岁。”
这不是口号,而是一种技术路线的宣言:
WAM不是简单的新模型,而是一种新的认知架构: 让机器人像人类一样,通过“想象未来”来指导动作,而不是靠语言指令硬编码。
作为观察者,我认为这场变革已经箭在弦上:
✅ WAM的优势:
⚠️ 挑战依然存在:
但正如LLM当年被质疑“无法理解语义”,如今WAM的潜力正在被验证。
如果WAM走通,我们将看到:
Jim Fan的演讲不是幻想,而是一份技术路线图。 他不是在问“能不能”,而是在说“已经在发生”。
📌 结语: VLA曾是机器人AI的“iPhone时刻”,但WAM可能是它的“App Store时刻”--开放、可扩展、生态驱动。
你看好WAM吗?还是认为VLA仍有进化空间? 欢迎在评论区聊聊你的看法👇
加入讨论
这个“语言拖后腿”的说法太真实了!之前我们实验室调VLA,模型总能把“把杯子放桌上”说得头头是道,结果机械臂直接悬空画个圈——懂语义,但完全不懂“放”这个动作的物理约束。现在看WAM用视频世界模型先学物理规律,感觉终于抓到重点了,动作不再是语言的附庸。
WAM这思路真狠,直接用视频预训练让模型“自学物理”,比硬编码规则强多了。不过现实世界的噪声那么多,视频里学到的“理想物理”真能扛住机械臂的抖动和传感器误差吗?有点担心落地时的“理想照进现实”gap。