前几天刷到NVIDIA机器人团队负责人Jim Fan在Sequoia AI Ascent上的演讲视频《Robotics: Endgame》,20分钟看完后我直接把链接转发给了几个做机器人和AI的朋友,说这是最近看到的最带劲的一场分享。
Jim Fan去年讲过《Physical Turing Test》,今年直接把续集端上来了。他整场演讲的核心就一句话:大语言模型走通的那条路,机器人也能抄,而且已经抄到关键节点了。
演讲开头他讲了个小故事。2016年在OpenAI,他和Jensen Huang、Elon Musk一起给一台DGX-1签名。那时候大家还觉得GPU主要是玩游戏和做科学计算,谁能想到今天AI全靠它起家。Jim Fan借Ilya那句名言--“如果你相信deep learning,它就会相信你”--切入正题。
LLM这几年走的路,大家都看在眼里:
但他认为,机器人可以走完全一样的路,只是把“下一个token”换成了“下一个物理世界状态”。这就是他反复强调的“The Great Parallel”--伟大平行。
过去几年,Vision-Language-Action模型(VLA)是主流。大家把视觉、语言、动作塞进一个大模型里,看起来很全能。但Jim Fan直言:它还差得远。
VLA里语言参数占比太高,擅长记名词、知识、指令,却不太懂真正的物理“动词”。比如它能把可乐罐准确放到Taylor Swift的海报上(因为见过很多类似场景),但在真正复杂的物理交互上表现一般。语言在拖后腿。
他提出的替代方案是两条腿走路:
用海量视频预训练,让模型自己学会物理规律。那些AI生成的“视频slop”(猫弹班卓琴、各种奇奇怪怪的画面)看起来好笑,但规模化以后,模型会在像素级别涌现出重力、浮力、碰撞、光照反射等隐式物理规则。
这其实就是一个神经网络版本的物理引擎,而且不需要你手写任何公式。
他放了VEO-3的演示:模型在像素空间预测未来画面,甚至能解决迷宫问题。Jim Fan笑着说:“如果没人看,几何也许是可选的”--全场都笑了。
这才是他这次最重点推的理念。在视频世界模型的基础上,再做“action fine-tuning”,让模型同时预测下一帧世界状态和对应的机器人动作。
他演示了DreamZero之类的系统:机器人执行任务时,你能实时看到它“脑子里在想什么”(预测的未来画面)。预测准,动作就稳;预测崩,动作就容易失败。这种方式让Vision和Action真正平等,都变成一等公民。
演讲里他直接喊出了那句梗:“VLA安息,WAM万岁。”
模型架构只是起点,数据才是核心。
传统遥操作(teleoperation)效率太低,戴着VR手柄控制机械臂,一天也收集不了多少高质量数据。Jim Fan重点介绍了 UMI(Universal Manipulation Interface):
“我们不需要更多模型,我们需要更多数据。”
Jim Fan的演讲让我重新思考一个问题:机器人是不是被“语言”绑架了太久?
我们总想让机器人“听懂指令”,却忘了它首先要“看懂世界”。WAM的思路很激进,但也很合理:物理世界的智能,应该从像素和动作中自然涌现,而不是靠语言中介。
如果LLM的成功靠的是“规模+数据+对齐”,那机器人要复刻这条路,关键突破口就是:
这条路很难,但一旦走通,可能比LLM更震撼--因为这次AI要走进现实世界了。
你怎么看?机器人真的能复制LLM的成功路径吗?还是说物理世界的复杂性注定让这条路更漫长?欢迎讨论👇
加入讨论
视频世界模型这个思路太野了!之前总觉得AI学物理得靠公式,结果Jim Fan直接让模型从像素里“悟”出来,连重力碰撞都能自己学会?那以后是不是连牛顿都要失业了……不过说真的,如果真能靠海量视频预训练搞出隐式物理引擎,机器人落地速度估计要起飞。
Jim Fan说“预测准,动作就稳”,这话让我想起小时候玩红白机,手柄反应慢半拍,角色就卡墙里了。现在机器人靠“脑内预演”来校准动作,是不是也算一种终极版游戏AI?不过要是预演画面太离谱,会不会把机械臂也带偏,直接表演个太空步?
“语言拖后腿”这句太真实了!就像教小孩光背说明书却不让动手,VLA确实有点纸上谈兵。不过WAM让机器人边想边做,是不是有点像学骑车时脑子里先预演摔倒再调整平衡?突然觉得AI学物理也没那么玄乎了。
“语言拖后腿”这句太戳了!就像让一个只会背菜谱的人去炒菜,理论满分,实操翻车。WAM让机器人边预测边动作,感觉像给它装了“肌肉记忆”,不用死记硬背也能灵活应对。不过,如果模型预演的画面和现实偏差太大,会不会直接“精神错乱”啊?😅