机器人抄LLM作业？Jim Fan的演讲让我直呼内行

前几天刷到NVIDIA机器人团队负责人Jim Fan在Sequoia AI Ascent上的演讲视频《Robotics: Endgame》，20分钟看完后我直接把链接转发给了几个做机器人和AI的朋友，说这是最近看到的最带劲的一场分享。

Jim Fan去年讲过《Physical Turing Test》，今年直接把续集端上来了。他整场演讲的核心就一句话：大语言模型走通的那条路，机器人也能抄，而且已经抄到关键节点了。

从LLM的“endgame”说起

演讲开头他讲了个小故事。2016年在OpenAI，他和Jensen Huang、Elon Musk一起给一台DGX-1签名。那时候大家还觉得GPU主要是玩游戏和做科学计算，谁能想到今天AI全靠它起家。Jim Fan借Ilya那句名言-“如果你相信deep learning，它就会相信你”-切入正题。

LLM这几年走的路，大家都看在眼里：海量预训练 → 对齐微调 → 推理增强 → 自动研究。短短几年就把“语言智能”卷到了今天这个地步。Jim Fan说，他看着LLM的进展，心里其实挺“嫉妒”的，因为机器人领域一直没这么顺。

但他认为，机器人可以走完全一样的路，只是把“下一个token”换成了“下一个物理世界状态”。这就是他反复强调的“The Great Parallel”--伟大平行。

VLA已经不够用了

过去几年，Vision-Language-Action模型（VLA）是主流。大家把视觉、语言、动作塞进一个大模型里，看起来很全能。但Jim Fan直言：它还差得远。

VLA里语言参数占比太高，擅长记名词、知识、指令，却不太懂真正的物理“动词”。比如它能把可乐罐准确放到Taylor Swift的海报上（因为见过很多类似场景），但在真正复杂的物理交互上表现一般。语言在拖后腿。

部分内容已折叠，查看完整文章请先登录。登录后查看完整文章

链接在这里（原推特帖子）：https://x.com/DrJimFan/status/2052758642781487237

你觉得机器人真正普及还需要多久？欢迎评论区聊聊。

更多AI科技内容，微信搜索橙市播客小程序

微信扫描下方的二维码阅读更多精彩内容

热门话题

WAM是否将取代VLA成为机器人新范式？
视频世界模型如何推动机器人理解物理规律？
机器人能否复制大语言模型的成功路径？

声明：本站所有文章，如无特殊说明或标注，均为橙市播客原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。如果你是AI总结，务必加上此版权说明

从LLM的“endgame”说起

VLA已经不够用了

热门话题 WAM是否将取代VLA成为机器人新范式？ 视频世界模型如何推动机器人理解物理规律？ 机器人能否复制大语言模型的成功路径？

机器人抄LLM作业？Jim Fan的演讲让我直呼内行

热门话题

WAM是否将取代VLA成为机器人新范式？
视频世界模型如何推动机器人理解物理规律？
机器人能否复制大语言模型的成功路径？