前几天刷到 NVIDIA 机器人团队负责人 Jim Fan 在 Sequoia AI Ascent 上的演讲《Robotics: Endgame》,20分钟看完我直接把链接甩给了几个做机器人和 AI 的朋友:“这可能是最近最带劲的一场分享。”
Jim Fan 去年讲《Physical Turing Test》,今年直接端出续集--核心就一句话:
大语言模型走通的路,机器人也能抄,而且已经抄到关键节点了。
演讲开头他讲了个小故事:2016年,他在 OpenAI,和 Jensen Huang、Elon Musk 一起给一台 DGX-1 签名。那时候大家还觉得 GPU 就是打游戏+科学计算,谁想到今天 AI 全靠它起飞?
他借 Ilya Sutskever 那句名言切入主题:
“如果你相信 deep learning,它就会相信你。”
LLM 这几年的路径清晰可见: ✅ 海量预训练 → ✅ 对齐微调 → ✅ 推理增强 → ✅ 自动研究 短短几年,“语言智能”被彻底重构。
Jim Fan 说:“我看着 LLM 的进展,心里其实挺‘嫉妒’的--机器人领域一直没这么顺。”
但他坚信:
机器人可以走完全一样的路,只是把‘下一个 token’换成‘下一个物理世界状态’。 这就是他反复强调的--The Great Parallel(伟大平行)。
过去几年,Vision-Language-Action(VLA)模型是主流:视觉+语言+动作塞进一个大模型,看起来很全能。
但 Jim Fan 直言:
它还差得远。
问题在哪?
他提出的替代方案是“双轨并行”:
用海量视频预训练,让模型自己学会物理规律。
那些 AI 生成的“视频 slop”(比如猫弹班卓琴、狗开飞船)看起来荒诞,但规模化之后,模型会在像素级别涌现出重力、浮力、碰撞、光照反射等隐式物理规则。
这其实就是一个神经网络版本的物理引擎,而且不需要你手写任何公式。
他放了 VEO-3 的演示:模型在像素空间预测未来画面,甚至能解决迷宫问题。 Jim Fan 笑着说:“如果没人看,几何也许是可选的。”(全场爆笑)
在视频世界模型的基础上,再做 “action fine-tuning”: 让模型同时预测下一帧世界状态 + 对应的机器人动作。
他演示了 DreamZero 等系统:
机器人执行任务时,你能实时看到它“脑子里在想什么”(预测的未来画面)。 预测准 → 动作稳;预测崩 → 动作失败。
这种方式让 Vision 和 Action 真正平等,都成为一等公民。
演讲里他直接喊出那句梗:
“VLA 安息,WAM 万岁。”
模型架构只是起点,数据才是核心。
传统遥操作(teleoperation)效率太低:戴 VR 手柄控制机械臂,一天也收集不了多少高质量数据。
Jim Fan 重点介绍了 UMI(Universal Manipulation Interface):
这场演讲让我想到:
当机器人能“看视频学物理”,还能“预演未来再行动”-- 它们离真正理解世界,可能只差一个“预训练-微调”的循环。
Jim Fan 的愿景很清晰:
不是教机器人物理公式,而是让它们从像素中“悟”出物理。
这不再是科幻,而是正在发生的“机器人 endgame”。
你怎么看?
加入讨论
这个“伟大平行”的比喻太戳了!我一直觉得机器人学总在追LLM的尾气,现在终于看到有人把“下一个物理状态”当token来搞,感觉像打通了任督二脉。不过视频世界模型真能靠AI生成的“猫弹琴”学会重力?有点玄,但Demo里迷宫预测确实有点东西……
“如果没人看,几何也许是可选的”这句笑死,但细想真有点道理——我们学物理要背公式,AI却从像素里自己悟出来了?那以后机器人会不会比我们还懂“水往低处流”?😅 不过视频slop真能教会重力?有点担心它学到的是“猫会飞”而不是牛顿定律…
“语言在拖后腿”这句简直说到心坎里了!以前总觉得机器人学卡在“知道但做不到”,原来问题出在语言模型太爱抢戏。现在换成视频世界模型+WAM,感觉像给机器人配了个物理直觉外挂——以后它摔跤前自己先预演一遍,是不是比人类学走路还快?😄
“语言在拖后腿”这句太真实了!以前调机器人总感觉它在“背课文”,指令记得清清楚楚,一碰现实就手忙脚乱。现在换成视频世界模型,像给它装了个“物理直觉”——不用死记硬背,直接从画面里学会“怎么动”。突然觉得,AI学物理比我们轻松多了,毕竟不用考力学期末考😂