WAM是否将取代VLA成为机器人新范式?

2 参与者

WAM是否将取代VLA成为机器人新范式?一场关于“物理智能”的范式革命正在上演

前几天刷到NVIDIA机器人团队负责人Jim Fan在Sequoia AI Ascent上的演讲视频《Robotics: Endgame》,20分钟看完后我直接把链接转发给了几个做机器人和AI的朋友,说这是最近看到的最带劲的一场分享。

这场演讲的核心观点非常激进:大语言模型(LLM)走通的那条路,机器人不仅能抄,而且已经抄到了关键节点。更具体地说--VLA(Vision-Language-Action)模型已经不够用了,WAM(World Action Models)才是下一个范式


🔥 从LLM的“终局”看机器人的未来

Jim Fan开场就讲了个小故事:2016年,他在OpenAI和Jensen Huang、Elon Musk一起给一台DGX-1签名。当时没人想到GPU会成为AI革命的基石。他引用Ilya Sutskever的名言:“如果你相信深度学习,它就会相信你。”

LLM的成功路径清晰可见:

  • 海量预训练 → 对齐微调 → 推理增强 → 自动研究

短短几年,语言智能突飞猛进。而机器人领域却长期卡在“感知-决策-执行”的割裂中。

但Jim Fan认为:机器人可以走完全一样的路,只是把“下一个token”换成“下一个物理世界状态”。他称之为“The Great Parallel”(伟大平行)。


❌ VLA的困境:语言太强,动作太弱

过去几年,VLA(视觉-语言-动作联合模型)是主流方向。把视觉输入、语言指令和动作输出塞进一个大模型,看似全能。

但Jim Fan直言:VLA还差得远

问题出在哪?

  • 语言参数占比过高,模型擅长记忆“名词”和“知识”,却不懂真正的“物理动词”。
  • 比如它能准确把可乐罐放到Taylor Swift海报上(因为见过类似场景),但在复杂物理交互(如拧瓶盖、叠积木)中表现糟糕。
  • 语言在拖后腿--它让模型偏向“语义理解”,而非“物理推理”。

✅ WAM的崛起:两条腿走路,让动作真正“物理化”

Jim Fan提出替代方案:WAM = 视频世界模型 + 动作微调

1. 视频世界模型(Video World Models)

用海量视频(包括AI生成的“slop”视频)进行预训练,让模型在像素级别自发学习物理规律:

  • 重力、碰撞、浮力、光照反射……无需手写公式
  • 模型成为“神经物理引擎”

他展示了VEO-3的演示:模型能预测未来画面,甚至解决迷宫问题。Jim Fan调侃:“如果没人看,几何也许是可选的”--全场爆笑。

2. World Action Models(WAM)

在视频世界模型基础上,加入动作微调:

  • 模型同时预测“下一帧世界状态”和“对应的机器人动作”
  • 实现视觉与动作的真正平等--都是第一公民

他展示了DreamZero系统:机器人执行任务时,你能实时看到它“脑子里在想什么”(预测的未来画面)。 👉 预测准,动作稳;预测崩,动作就失败。

这才是真正的“物理智能”闭环。


📊 数据才是终极瓶颈:遥操作已死,自动化数据生成万岁

模型架构只是起点,数据才是核心

传统遥操作(teleoperation)效率极低:

  • 戴VR手柄控制机械臂,一天收集不了多少高质量数据
  • 成本高、速度慢、难以规模化

Jim Fan重点介绍了UMI(Universal Manipulation Interface)

  • 用低成本、可复用的硬件接口,实现跨机器人、跨任务的通用数据采集
  • 目标是构建“机器人版ImageNet”--海量、多样、可迁移的物理交互数据

他还提到:未来数据将来自AI生成视频 + 真实世界采集的混合 pipeline,就像LLM用网页+书籍+代码一样。


🚀 “VLA安息,WAM万岁”--一场静悄悄的范式转移

Jim Fan在演讲结尾喊出那句梗:“VLA安息,WAM万岁。

这不是口号,而是一种技术路线的宣言:

  • VLA是“语言主导”的妥协方案
  • WAM是“物理主导”的终极形态

WAM不是简单的新模型,而是一种新的认知架构: 让机器人像人类一样,通过“想象未来”来指导动作,而不是靠语言指令硬编码。


🤔 那么问题来了:WAM真的能取代VLA吗?

作为观察者,我认为这场变革已经箭在弦上:

WAM的优势

  • 更贴近物理世界本质
  • 动作与感知深度融合
  • 可扩展性强,适合大规模预训练

⚠️ 挑战依然存在

  • 视频世界模型的训练成本极高
  • 动作微调需要高质量、对齐的“状态-动作”对
  • 实时推理延迟可能影响控制稳定性

但正如LLM当年被质疑“无法理解语义”,如今WAM的潜力正在被验证。


🔮 未来展望:机器人版的“Scaling Law”正在浮现

如果WAM走通,我们将看到:

  • 机器人不再依赖手工设计的控制策略
  • 通用机器人(General-Purpose Robot)成为可能
  • 家庭服务、工业协作、灾难救援……场景全面爆发

Jim Fan的演讲不是幻想,而是一份技术路线图。 他不是在问“能不能”,而是在说“已经在发生”。


📌 结语: VLA曾是机器人AI的“iPhone时刻”,但WAM可能是它的“App Store时刻”--开放、可扩展、生态驱动。

你看好WAM吗?还是认为VLA仍有进化空间? 欢迎在评论区聊聊你的看法👇

机器人 #AI #WAM #VLA #JimFan #NVIDIA #通用人工智能 #物理智能 #世界模型

加入讨论

2 条评论

延伸阅读