
当大模型的能力越来越强,如何真正验证它们在「长期任务」和「复杂决策」上的差异,成了一个绕不开的问题。 相比刷榜式的基准测试,有一种方式更直观也更残酷--让 AI 自己去玩一款需要数十小时才能通关的经典游戏。
近期,开发者 JCZ 在其博客中分享了一次非常有代表性的实验: 让 Gemini 2.5 Pro 和 Gemini 3 Pro 分别独立通关《Pokémon Crystal(宝可梦 水晶版)》,并对两者的表现进行了系统对比。
结果非常明确:Gemini 3 Pro 全面胜出。

一、为什么选择《宝可梦 水晶版》?
《宝可梦 水晶版》并不是一款“简单游戏”。
与早期的《宝可梦 红 / 蓝》相比,它具备几个对 AI 极不友好的特点:
- 游戏流程极长:完整通关需要几十小时
- 目标跨度大:不仅要收集 8 个徽章,还要挑战关东地区,再击败隐藏 Boss「Red」
- 策略深度高:涉及属性克制、技能搭配、资源管理、路线规划
- 容错成本高:一旦策略错误,可能浪费大量时间甚至卡关
部分内容已折叠,查看完整文章请先登录。 登录后查看完整文章
Gemini 3 Pro 的胜出,代表着:
- 长期推理能力的实质性进步
- Agent 模型在复杂环境中的可靠性提升
- AI 从“会回答问题”,迈向“能把事做完”
如果说以前的大模型更像“聪明的助手”, 那么从 Gemini 3 Pro 开始,我们正在看到真正意义上的-- “长期自主行动者”。
原 创文章,更多AI科技内容,微信搜索 橙 市 播 客 小程序
微信扫描下方的二维码阅读更多精彩内容

声明:本站所有文章,如无特殊说明或标注,均为橙市播客原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。如果你是AI总结,务必加上此版权说明