机器人能否复制大语言模型的成功路径?

4 参与者

机器人能否复制大语言模型的成功路径?

前几天刷到NVIDIA机器人团队负责人Jim Fan在Sequoia AI Ascent上的演讲视频《Robotics: Endgame》,20分钟看完后我直接把链接转发给了几个做机器人和AI的朋友,说这是最近看到的最带劲的一场分享。

Jim Fan去年讲过《Physical Turing Test》,今年直接把续集端上来了。他整场演讲的核心就一句话:大语言模型走通的那条路,机器人也能抄,而且已经抄到关键节点了


🚀 从LLM的“终局”说起

演讲开头他讲了个小故事。2016年在OpenAI,他和Jensen Huang、Elon Musk一起给一台DGX-1签名。那时候大家还觉得GPU主要是玩游戏和做科学计算,谁能想到今天AI全靠它起家。Jim Fan借Ilya那句名言--“如果你相信deep learning,它就会相信你”--切入正题。

LLM这几年走的路,大家都看在眼里:

  • 海量预训练 → 对齐微调 → 推理增强 → 自动研究 短短几年就把“语言智能”卷到了今天这个地步。Jim Fan说,他看着LLM的进展,心里其实挺“嫉妒”的,因为机器人领域一直没这么顺。

但他认为,机器人可以走完全一样的路,只是把“下一个token”换成了“下一个物理世界状态”。这就是他反复强调的“The Great Parallel”--伟大平行


❌ VLA已经不够用了

过去几年,Vision-Language-Action模型(VLA)是主流。大家把视觉、语言、动作塞进一个大模型里,看起来很全能。但Jim Fan直言:它还差得远

VLA里语言参数占比太高,擅长记名词、知识、指令,却不太懂真正的物理“动词”。比如它能把可乐罐准确放到Taylor Swift的海报上(因为见过很多类似场景),但在真正复杂的物理交互上表现一般。语言在拖后腿

他提出的替代方案是两条腿走路:

1️⃣ 视频世界模型(Video World Models)

用海量视频预训练,让模型自己学会物理规律。那些AI生成的“视频slop”(猫弹班卓琴、各种奇奇怪怪的画面)看起来好笑,但规模化以后,模型会在像素级别涌现出重力、浮力、碰撞、光照反射等隐式物理规则。

这其实就是一个神经网络版本的物理引擎,而且不需要你手写任何公式。

他放了VEO-3的演示:模型在像素空间预测未来画面,甚至能解决迷宫问题。Jim Fan笑着说:“如果没人看,几何也许是可选的”--全场都笑了。

2️⃣ World Action Models(WAM)

这才是他这次最重点推的理念。在视频世界模型的基础上,再做“action fine-tuning”,让模型同时预测下一帧世界状态和对应的机器人动作。

他演示了DreamZero之类的系统:机器人执行任务时,你能实时看到它“脑子里在想什么”(预测的未来画面)。预测准,动作就稳;预测崩,动作就容易失败。这种方式让Vision和Action真正平等,都变成一等公民。

演讲里他直接喊出了那句梗:“VLA安息,WAM万岁。


📊 数据才是真正的瓶颈

模型架构只是起点,数据才是核心。

传统遥操作(teleoperation)效率太低,戴着VR手柄控制机械臂,一天也收集不了多少高质量数据。Jim Fan重点介绍了 UMI(Universal Manipulation Interface)

  • 用标准化夹具 + 手机支架 + 开源软件,把任何物体变成可操作对象
  • 普通人用手机拍一段操作视频,就能生成带动作标签的训练数据
  • 目标是构建“机器人版ImageNet”--百万级、多样化、真实世界的操作数据集

“我们不需要更多模型,我们需要更多数据。”


💡 我的思考

Jim Fan的演讲让我重新思考一个问题:机器人是不是被“语言”绑架了太久?

我们总想让机器人“听懂指令”,却忘了它首先要“看懂世界”。WAM的思路很激进,但也很合理:物理世界的智能,应该从像素和动作中自然涌现,而不是靠语言中介

如果LLM的成功靠的是“规模+数据+对齐”,那机器人要复刻这条路,关键突破口就是:

  1. 构建足够大的物理世界视频数据集
  2. 训练能预测真实物理演化的世界模型
  3. 用真实交互数据做动作对齐微调

这条路很难,但一旦走通,可能比LLM更震撼--因为这次AI要走进现实世界了。

你怎么看?机器人真的能复制LLM的成功路径吗?还是说物理世界的复杂性注定让这条路更漫长?欢迎讨论👇

机器人 #AI #大模型 #世界模型 #JimFan #NVIDIA #WAM #VLA

加入讨论

4 条评论

延伸阅读