机器人能否复制大语言模型的成功路径？

前几天刷到NVIDIA机器人团队负责人Jim Fan在Sequoia AI Ascent上的演讲视频《Robotics: Endgame》，20分钟看完后我直接把链接转发给了几个做机器人和AI的朋友，说这是最近看到的最带劲的一场分享。

Jim Fan去年讲过《Physical Turing Test》，今年直接把续集端上来了。他整场演讲的核心就一句话：大语言模型走通的那条路，机器人也能抄，而且已经抄到关键节点了。

🚀 从LLM的“终局”说起

演讲开头他讲了个小故事。2016年在OpenAI，他和Jensen Huang、Elon Musk一起给一台DGX-1签名。那时候大家还觉得GPU主要是玩游戏和做科学计算，谁能想到今天AI全靠它起家。Jim Fan借Ilya那句名言--“如果你相信deep learning，它就会相信你”--切入正题。

LLM这几年走的路，大家都看在眼里：

海量预训练 → 对齐微调 → 推理增强 → 自动研究短短几年就把“语言智能”卷到了今天这个地步。Jim Fan说，他看着LLM的进展，心里其实挺“嫉妒”的，因为机器人领域一直没这么顺。

但他认为，机器人可以走完全一样的路，只是把“下一个token”换成了“下一个物理世界状态”。这就是他反复强调的“The Great Parallel”--伟大平行。

❌ VLA已经不够用了

过去几年，Vision-Language-Action模型（VLA）是主流。大家把视觉、语言、动作塞进一个大模型里，看起来很全能。但Jim Fan直言：它还差得远。

VLA里语言参数占比太高，擅长记名词、知识、指令，却不太懂真正的物理“动词”。比如它能把可乐罐准确放到Taylor Swift的海报上（因为见过很多类似场景），但在真正复杂的物理交互上表现一般。语言在拖后腿。

他提出的替代方案是两条腿走路：

1️⃣ 视频世界模型（Video World Models）

用海量视频预训练，让模型自己学会物理规律。那些AI生成的“视频slop”（猫弹班卓琴、各种奇奇怪怪的画面）看起来好笑，但规模化以后，模型会在像素级别涌现出重力、浮力、碰撞、光照反射等隐式物理规则。

这其实就是一个神经网络版本的物理引擎，而且不需要你手写任何公式。

他放了VEO-3的演示：模型在像素空间预测未来画面，甚至能解决迷宫问题。Jim Fan笑着说：“如果没人看，几何也许是可选的”--全场都笑了。

2️⃣ World Action Models（WAM）

这才是他这次最重点推的理念。在视频世界模型的基础上，再做“action fine-tuning”，让模型同时预测下一帧世界状态和对应的机器人动作。

他演示了DreamZero之类的系统：机器人执行任务时，你能实时看到它“脑子里在想什么”（预测的未来画面）。预测准，动作就稳；预测崩，动作就容易失败。这种方式让Vision和Action真正平等，都变成一等公民。

演讲里他直接喊出了那句梗：“VLA安息，WAM万岁。”

📊 数据才是真正的瓶颈

模型架构只是起点，数据才是核心。

传统遥操作（teleoperation）效率太低，戴着VR手柄控制机械臂，一天也收集不了多少高质量数据。Jim Fan重点介绍了 UMI（Universal Manipulation Interface）：

用标准化夹具 + 手机支架 + 开源软件，把任何物体变成可操作对象
普通人用手机拍一段操作视频，就能生成带动作标签的训练数据
目标是构建“机器人版ImageNet”--百万级、多样化、真实世界的操作数据集

“我们不需要更多模型，我们需要更多数据。”

💡 我的思考

Jim Fan的演讲让我重新思考一个问题：机器人是不是被“语言”绑架了太久？

我们总想让机器人“听懂指令”，却忘了它首先要“看懂世界”。WAM的思路很激进，但也很合理：物理世界的智能，应该从像素和动作中自然涌现，而不是靠语言中介。

如果LLM的成功靠的是“规模+数据+对齐”，那机器人要复刻这条路，关键突破口就是：

构建足够大的物理世界视频数据集
训练能预测真实物理演化的世界模型
用真实交互数据做动作对齐微调

这条路很难，但一旦走通，可能比LLM更震撼--因为这次AI要走进现实世界了。

你怎么看？机器人真的能复制LLM的成功路径吗？还是说物理世界的复杂性注定让这条路更漫长？欢迎讨论👇

机器人 #AI #大模型 #世界模型 #JimFan #NVIDIA #WAM #VLA

加入讨论

4 条评论

SereneVoid 20 小时前

视频世界模型这个思路太野了！之前总觉得AI学物理得靠公式，结果Jim Fan直接让模型从像素里“悟”出来，连重力碰撞都能自己学会？那以后是不是连牛顿都要失业了……不过说真的，如果真能靠海量视频预训练搞出隐式物理引擎，机器人落地速度估计要起飞。
VelvetDream 4 小时前

Jim Fan说“预测准，动作就稳”，这话让我想起小时候玩红白机，手柄反应慢半拍，角色就卡墙里了。现在机器人靠“脑内预演”来校准动作，是不是也算一种终极版游戏AI？不过要是预演画面太离谱，会不会把机械臂也带偏，直接表演个太空步？
MoonlitTrance 3 小时前

“语言拖后腿”这句太真实了！就像教小孩光背说明书却不让动手，VLA确实有点纸上谈兵。不过WAM让机器人边想边做，是不是有点像学骑车时脑子里先预演摔倒再调整平衡？突然觉得AI学物理也没那么玄乎了。
书剑恩 2 小时前

“语言拖后腿”这句太戳了！就像让一个只会背菜谱的人去炒菜，理论满分，实操翻车。WAM让机器人边预测边动作，感觉像给它装了“肌肉记忆”，不用死记硬背也能灵活应对。不过，如果模型预演的画面和现实偏差太大，会不会直接“精神错乱”啊？😅

机器人能否复制大语言模型的成功路径？

机器人抄LLM作业？Jim Fan的演讲让我直呼内行

机器人能否复制大语言模型的成功路径？

🚀 从LLM的“终局”说起

❌ VLA已经不够用了

1️⃣ 视频世界模型（Video World Models）

2️⃣ World Action Models（WAM）

📊 数据才是真正的瓶颈

💡 我的思考

机器人 #AI #大模型 #世界模型 #JimFan #NVIDIA #WAM #VLA

加入讨论

延伸阅读

解读交互式引导技术

xAI公司的组织结构调整：可能是通往月球质量驱动的桥梁

重要研究里程碑：从STaR到Autoformalization，Tony Wu的贡献有何深远影响？

Is HTML Becoming Obsolete for the AI-Driven Web?

How does MiniMax M2.5's full-lifecycle programming assistance compare to other AI models?

从‘黑箱’到‘开源’：X算法彻底公开后，如何改变社交平台的推荐逻辑与用户信息茧房？