用 AI 玩游戏《宝可梦水晶版》:Gemini 3 Pro 如何击败 2.5 Pro
aikeji
12-16
90


当大模型的能力越来越强,如何真正验证它们在「长期任务」和「复杂决策」上的差异,成了一个绕不开的问题。 相比刷榜式的基准测试,有一种方式更直观也更残酷--让 AI 自己去玩一款需要数十小时才能通关的经典游戏

近期,开发者 JCZ 在其博客中分享了一次非常有代表性的实验: 让 Gemini 2.5 Pro 和 Gemini 3 Pro 分别独立通关《Pokémon Crystal(宝可梦 水晶版)》,并对两者的表现进行了系统对比。

结果非常明确:Gemini 3 Pro 全面胜出


一、为什么选择《宝可梦 水晶版》?

《宝可梦 水晶版》并不是一款“简单游戏”。

与早期的《宝可梦 红 / 蓝》相比,它具备几个对 AI 极不友好的特点:

  • 游戏流程极长:完整通关需要几十小时
  • 目标跨度大:不仅要收集 8 个徽章,还要挑战关东地区,再击败隐藏 Boss「Red」
  • 策略深度高:涉及属性克制、技能搭配、资源管理、路线规划
  • 容错成本高:一旦策略错误,可能浪费大量时间甚至卡关
部分内容已折叠,查看完整文章请先登录。 登录后查看完整文章

Gemini 3 Pro 的胜出,代表着:

  • 长期推理能力的实质性进步
  • Agent 模型在复杂环境中的可靠性提升
  • AI 从“会回答问题”,迈向“能把事做完”

如果说以前的大模型更像“聪明的助手”, 那么从 Gemini 3 Pro 开始,我们正在看到真正意义上的-- “长期自主行动者”

原 创文章,更多AI科技内容,微信搜索 橙 市 播 客 小程序



微信扫描下方的二维码阅读更多精彩内容

打赏
3秒克隆你的声音!阿里通义开源语音神器,方言、外语都能说,嘈杂环境也能听清
上一篇
AI 生成高端悬浮产品摄影图教程:零重力广告大片风格
下一篇
生成中...
点赞是美意,赞赏是鼓励