WAM是否将取代VLA成为机器人新范式？一场关于“物理智能”的范式革命正在上演

前几天刷到NVIDIA机器人团队负责人Jim Fan在Sequoia AI Ascent上的演讲视频《Robotics: Endgame》，20分钟看完后我直接把链接转发给了几个做机器人和AI的朋友，说这是最近看到的最带劲的一场分享。

这场演讲的核心观点非常激进：大语言模型（LLM）走通的那条路，机器人不仅能抄，而且已经抄到了关键节点。更具体地说--VLA（Vision-Language-Action）模型已经不够用了，WAM（World Action Models）才是下一个范式。

🔥 从LLM的“终局”看机器人的未来

Jim Fan开场就讲了个小故事：2016年，他在OpenAI和Jensen Huang、Elon Musk一起给一台DGX-1签名。当时没人想到GPU会成为AI革命的基石。他引用Ilya Sutskever的名言：“如果你相信深度学习，它就会相信你。”

LLM的成功路径清晰可见：

海量预训练 → 对齐微调 → 推理增强 → 自动研究

短短几年，语言智能突飞猛进。而机器人领域却长期卡在“感知-决策-执行”的割裂中。

但Jim Fan认为：机器人可以走完全一样的路，只是把“下一个token”换成“下一个物理世界状态”。他称之为“The Great Parallel”（伟大平行）。

❌ VLA的困境：语言太强，动作太弱

过去几年，VLA（视觉-语言-动作联合模型）是主流方向。把视觉输入、语言指令和动作输出塞进一个大模型，看似全能。

但Jim Fan直言：VLA还差得远。

问题出在哪？

语言参数占比过高，模型擅长记忆“名词”和“知识”，却不懂真正的“物理动词”。
比如它能准确把可乐罐放到Taylor Swift海报上（因为见过类似场景），但在复杂物理交互（如拧瓶盖、叠积木）中表现糟糕。
语言在拖后腿--它让模型偏向“语义理解”，而非“物理推理”。

✅ WAM的崛起：两条腿走路，让动作真正“物理化”

Jim Fan提出替代方案：WAM = 视频世界模型 + 动作微调

1. 视频世界模型（Video World Models）

用海量视频（包括AI生成的“slop”视频）进行预训练，让模型在像素级别自发学习物理规律：

重力、碰撞、浮力、光照反射……无需手写公式
模型成为“神经物理引擎”

他展示了VEO-3的演示：模型能预测未来画面，甚至解决迷宫问题。Jim Fan调侃：“如果没人看，几何也许是可选的”--全场爆笑。

2. World Action Models（WAM）

在视频世界模型基础上，加入动作微调：

模型同时预测“下一帧世界状态”和“对应的机器人动作”
实现视觉与动作的真正平等--都是第一公民

他展示了DreamZero系统：机器人执行任务时，你能实时看到它“脑子里在想什么”（预测的未来画面）。 👉 预测准，动作稳；预测崩，动作就失败。

这才是真正的“物理智能”闭环。

📊 数据才是终极瓶颈：遥操作已死，自动化数据生成万岁

模型架构只是起点，数据才是核心。

传统遥操作（teleoperation）效率极低：

戴VR手柄控制机械臂，一天收集不了多少高质量数据
成本高、速度慢、难以规模化

Jim Fan重点介绍了UMI（Universal Manipulation Interface）：

用低成本、可复用的硬件接口，实现跨机器人、跨任务的通用数据采集
目标是构建“机器人版ImageNet”--海量、多样、可迁移的物理交互数据

他还提到：未来数据将来自AI生成视频 + 真实世界采集的混合 pipeline，就像LLM用网页+书籍+代码一样。

🚀 “VLA安息，WAM万岁”--一场静悄悄的范式转移

Jim Fan在演讲结尾喊出那句梗：“VLA安息，WAM万岁。”

这不是口号，而是一种技术路线的宣言：

VLA是“语言主导”的妥协方案
WAM是“物理主导”的终极形态

WAM不是简单的新模型，而是一种新的认知架构：让机器人像人类一样，通过“想象未来”来指导动作，而不是靠语言指令硬编码。

🤔 那么问题来了：WAM真的能取代VLA吗？

作为观察者，我认为这场变革已经箭在弦上：

✅ WAM的优势：

更贴近物理世界本质
动作与感知深度融合
可扩展性强，适合大规模预训练

⚠️ 挑战依然存在：

视频世界模型的训练成本极高
动作微调需要高质量、对齐的“状态-动作”对
实时推理延迟可能影响控制稳定性

但正如LLM当年被质疑“无法理解语义”，如今WAM的潜力正在被验证。

🔮 未来展望：机器人版的“Scaling Law”正在浮现

如果WAM走通，我们将看到：

机器人不再依赖手工设计的控制策略
通用机器人（General-Purpose Robot）成为可能
家庭服务、工业协作、灾难救援……场景全面爆发

Jim Fan的演讲不是幻想，而是一份技术路线图。他不是在问“能不能”，而是在说“已经在发生”。

📌 结语： VLA曾是机器人AI的“iPhone时刻”，但WAM可能是它的“App Store时刻”--开放、可扩展、生态驱动。

你看好WAM吗？还是认为VLA仍有进化空间？ 欢迎在评论区聊聊你的看法👇

机器人 #AI #WAM #VLA #JimFan #NVIDIA #通用人工智能 #物理智能 #世界模型

WAM是否将取代VLA成为机器人新范式？

机器人抄LLM作业？Jim Fan的演讲让我直呼内行

WAM是否将取代VLA成为机器人新范式？一场关于“物理智能”的范式革命正在上演

🔥 从LLM的“终局”看机器人的未来

❌ VLA的困境：语言太强，动作太弱

✅ WAM的崛起：两条腿走路，让动作真正“物理化”

1. 视频世界模型（Video World Models）

2. World Action Models（WAM）

📊 数据才是终极瓶颈：遥操作已死，自动化数据生成万岁

🚀 “VLA安息，WAM万岁”--一场静悄悄的范式转移

🤔 那么问题来了：WAM真的能取代VLA吗？

🔮 未来展望：机器人版的“Scaling Law”正在浮现

机器人 #AI #WAM #VLA #JimFan #NVIDIA #通用人工智能 #物理智能 #世界模型

加入讨论

延伸阅读

如何解决人工智能定时任务被放鸽子的痛点？

垂直领域AI服务为何更适合新手入局？

为什么不同大模型的token切分方式会导致同样的prompt产生完全不同的理解效果？

提示缓存在AI代理系统中的核心作用是什么？

90天学习转型路线图的落地效果如何验证？

Claude Code Channels上线，手机编程会成为开发者标配吗？