
12月12日,OpenAI 正式推出了 GPT-5.2,这不仅是一次简单的版本号迭代,更是向“辅助专业工作”迈出的关键一步。该系列模型旨在通过更强的推理能力、更长的上下文理解以及卓越的工具使用能力,解锁更大的经济价值。
1. GPT-5.2 系列:三种模式,各司其职

GPT-5.2 并未采用“一刀切”的策略,而是推出了三个针对不同场景优化的版本:
- GPT-5.2 Instant(即时版):面向日常任务和学习,响应迅速,适合作为高效的日常助手。
- GPT-5.2 Thinking(思考版):这是本次发布的核心主力。它专为复杂的步骤性工作和智能体(Agent)设计,能够处理长文档、编写复杂代码并执行多步推理。
- GPT-5.2 Pro(专业版):性能最强但速度较慢。它配备了更多的计算资源用于处理极高难度的技术和分析任务(如科学研究、深度推理)。目前主要在 ChatGPT 中向特定付费用户开放。
2. GDPval:衡量 AI 经济价值的新标尺
为了真正量化 AI 在现实工作中的表现,OpenAI 推出了全新的基准测试--GDPval。
什么是 GDPval?

不同于传统的学术考试(如做选择题),GDPval 关注的是经济价值。它涵盖了对美国 GDP 贡献最大的 9 个行业的 44 种职业(如律师、机械工程师、财务分析师等),包含了由行业专家设计的 1,320 项真实工作任务。这些任务要求模型产出真实的“工作成果”,例如法律合同、工程蓝图、销售演示文稿或财务电子表格。
GPT-5.2 的表现如何?

在 GDPval 测试中,GPT-5.2 Thinking 创下了新的历史记录:
- 超越人类专家:在 70.9% 的对比测试中,GPT-5.2 Thinking 的表现优于或持平于顶尖的人类行业专家(相比之下,GPT-5 仅为 38.8%)。
- 效率惊人:其完成任务的速度是专家的 11 倍以上,而成本不到专家的 1%。
- 实战案例:在初级投资银行分析师的任务(如构建复杂的 Excel 模型)中,GPT-5.2 的得分比前代提升了近 10%。
原创文章,更多AI科技、提示词内容微信搜索橙市播客小程序
3. 实测体验:开发者眼中的 GPT-5.2
知名开发者 Matt Shumer 在深度测试了两周后,给出了极为详尽的评价。他认为 GPT-5.2 是“指令遵循和任务执行意愿上的重大飞跃”。
核心亮点
- 惊人的指令遵循能力:
- 案例:当被要求“想出 50 个情节创意然后选出最好的一个”时,大多数模型会偷懒只列出 10 个。但 GPT-5.2 真的会列出全部 50 个再做选择。这种“信任过程”的态度对于创意和研究工作至关重要。
- 案例:它甚至愿意尝试“写一本 200 页的书”这种通常被模型拒绝的任务,虽然结果并不完美,但它构建了完整的 PDF 结构并尝试执行,展现了前所未有的自主性。
- 代码能力的进化:
- 在 SWE-Bench Pro(涵盖四种编程语言的真实软件工程测试)中,GPT-5.2 Thinking 达到了 55.6% 的新高。
- Shumer 指出,GPT-5.2 愿意编写比以往更多的代码,且能长时间不间断地工作。在处理复杂的上下文(如大型代码库)时表现更加稳定。
- Pro 模式的“深思熟虑”:
- 食谱测试:Shumer 要求制定一个“没时间做饭”的人的饮食计划。GPT-5.2 Pro 不仅给出了食谱,还极大地简化了配料表,因为它理解“没时间”不仅指烹饪时间,还包括购物和心理负担。这种对用户意图的深层理解是其杀手锏。
缺点与不足
- 速度问题:这是目前最大的短板。Shumer 表示,Thinking 模式在处理大多数问题时都显得非常慢,而 Pro 模式虽然聪明绝顶,但有时会陷入长时间的思考甚至最终失败。原创文章,更多AI科技、提示词内容微信搜索橙市播客小程序
- 风格惯性:模型依然非常喜欢使用“要点列表(Bullet Points)”,即使在不需要的时候也是如此。
- CLI 限制:目前 Pro 模式仅限于 ChatGPT 网页端,未开放 API 或命令行接口,这让习惯在代码编辑器中使用 AI 的开发者感到沮丧。
4. 关键技术突破:视觉与长上下文
-
视觉能力(Vision): GPT-5.2 在理解图像空间关系上有了显著提升。在识别主板组件位置等任务中,它能更准确地给出边界框。对于前端开发,它能更好地理解 UI 布局,甚至能直接生成带有 3D 元素的复杂界面(如海浪模拟器)。
-
长上下文(Long Context): 在 OpenAI MRCRv2 测试中,GPT-5.2 Thinking 在“大海捞针”任务(从 256k tokens 的长文中提取信息)中实现了近乎 100% 的准确率。这意味着专业人士可以放心地让它处理数百页的合同、论文或代码库,而不用担心它“遗忘”关键信息。
5. 总结:谁应该使用 GPT-5.2?
GPT-5.2 标志着 AI 从“聊天机器人”向“数字员工”的转变。
- 如果你是普通用户:日常问答可能觉得它有点慢,Instant 模式或许更适合你。
- 如果你是专业人士(程序员、研究员、分析师):GPT-5.2 Thinking 和 Pro 是目前的最佳选择。尽管速度较慢,但它在处理复杂逻辑、长文档分析和高难度编程任务时的可靠性和深度推理能力,是其他模型难以比拟的。
正如 Matt Shumer 所总结的:“对于需要深思熟虑的任务,速度的代价是值得的。”GPT-5.2 或许不是最快的,但它绝对是目前最“会思考”的工作伙伴。
原 创文章,更多AI科技、提示词内容 微信搜索橙市播客小程序
微信扫描下方的二维码阅读更多精彩内容

声明:本站所有文章,如无特殊说明或标注,均为橙市播客原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
