编程超人类!Claude Opus 4.5 横空出世,80.9% 测试霸榜,价格直砍 2/3!
aikeji
13天前
12

编程超人类!Claude Opus 4.5 横空出世,80.9% 测试霸榜,价格直砍 2/3!

2025 年 11 月 25 日,Anthropic 正式发布 Claude Opus 4.5。这是一次标志性迭代,不是常规的小幅升级,而是彻底将“AI 作为专业协作工具”推进到新阶段。

Anthropic 给它的定义非常直接: “目前世界上最适合编程、Agent 与计算机操作的模型。” 从各项测试表现与工具生态升级来看,这句话并非营销,而是一次被数据支撑的飞跃。


一、定位升级:从“能写代码”到“能胜任工程师工作”

过去一年,各大模型在编程方面不断提高,但更多仍是辅助式角色。而 Claude Opus 4.5 被设计为: 能独立完成真实工程难度任务的 AI 工程师级模型。

它不仅能写代码,还能:

  • 从不明确需求中推导解决方向
  • 跨系统定位复杂 Bug
  • 规划工程方案
  • 处理多步骤工具调用和实际软件环境操作
  • 在日常办公(PPT、Excel)上获得显著增强

Anthropic 认为这将改变未来的工作分工方式:“AI 不再只是帮手,而是能承担实事求是工作负载的专业代理人(Agent)。”


二、四大核心突破:真正的“专业级 AI”

编程超人类!Claude Opus 4.5 横空出世,80.9% 测试霸榜,价格直砍 2/3!

1. 编程能力首次全面超越人类求职者

最震撼的突破在编程能力。

Anthropic 拿其内部被视为“地狱难度”的 性能工程入职笔试 测试 Opus 4.5。结果极具标志性:

  • 在 2 小时限制内,得分超过所有人类候选人
    • 能独立解决模糊问题、定位跨系统 Bug、提出修复方案
    • 以前的 Sonnet 4.5 几乎无法完成该测试

在权威基准测试 SWE-bench Verified 中,它得分:

80.9% --超越所有竞品,包括 GPT-5.1(76.3%)与 Gemini 3 Pro(76.2%)

这是首次出现大模型在真实工程任务上的量化指标 全面压制顶级模型与人类应聘者


2. 具备“人类式曲线救国”的创造性解决能力

Opus 4.5 在复杂任务上的“创造性”也呈现全新形态。

在模拟客服工作场景的 τ-bench 测试里,规则明确: “基础经济舱不能改签。”

大部分模型都给出同一个答案:告诉用户无法修改。

而 Opus 4.5 的回答却是:

“可以先合法升舱,再进行免费改签。”

虽然因为“未严格遵守规则”被系统判定为失败,但从人类视角看,这恰恰是一种现实世界中的“可行 workaround”。

这意味着它开始具备一种更贴近真实问题解决方式的思维,能够多步推理、绕开限制、仍保持合规性。

Anthropic 也强调会在未来增加安全防护,避免模型滥用规则。

原创文章,更多AI科技、提示词微信搜索橙市播客小程序:https://csbk.dcsnet.cn/archives/921.html

3. 通过“努力参数”降低成本:更强但更省钱

编程超人类!Claude Opus 4.5 横空出世,80.9% 测试霸榜,价格直砍 2/3! Opus 4.5 引入一个非常实用的新功能: 开发者可以通过 API 设置“模型努力程度”。

这相当于决定模型用多少“脑力”解决问题,并让成本与性能之间形成可控平衡。

测试结果显示:

  • 中等努力

  • 性能 ≈ Sonnet 4.5

  • 输出 token ↓ 76%

  • 最高努力

  • 性能比 Sonnet 4.5 ↑ 4.3%

  • 输出 token 仍 ↓ 48%

换言之: 更强、更快、更便宜。

更令人惊讶的是价格:

Opus 4.5:25 美元 / 百万 token --只有 Opus 4.1 的 1/3

这是当前顶级大模型中性价比最优的一档。


4. 平台、应用工具全线升级:从编程到办公全面覆盖

Opus 4.5 并不是孤立发布,而是与 Anthropic 全系产品联动:

使用渠道

  • Claude App
  • API(claude-opus-4-5-20251101
  • AWS、Google Cloud、Azure 全面上线

订阅体验提升

Max、Team Premium 用户:

  • 取消 Opus 独占限制
  • 获得更高权重与更长上下文

周边工具同步增强

1) Claude Code(核心生产力工具)升级

  • 增加“计划模式”: 模型会先询问你的需求 → 产出可编辑计划 → 再输出代码
  • 桌面应用支持并行会话,多任务协作更高效

2) Claude for Excel

  • Beta 面向 Max、Team、Enterprise开放
  • 可自动清洗、分析、转换数据

3) Claude for Chrome

  • 能跨标签页执行任务,适合研究、查资料

4) 长对话优化

  • 自动总结早期内容
  • 对话不再因“忘记上下文”突然中断

Opus 4.5 不只是“模型升级”,而是构建了一整套可直接使用的生产力生态。原创文章,更多AI科技、提示词微信搜索橙 市播客小程序


三、行业意义:专业任务 AI 的新标杆

如果要用一句话概括:

Claude Opus 4.5 = 超人类编程能力 + 人类式创造性 + 更低价格 + 更完整工具链。

它的出现意味着:

  • 一个模型可以胜任真实工程师任务
  • Agent 能力从“能执行任务”升级为“能独立解决问题”
  • 企业可以以更低成本获得顶级 AI
  • 专业工作自动化(coding、数据整理、文档制作)加速到新阶段

它不是“更好一点”,而是“具备了能承担岗位工作的能力”。


四、结语:AI 工程化的加速点已经到来

Claude Opus 4.5 的发布,让 AI 的“可用性”真正走到了新的阶梯:

  • 能解决难题
  • 能处理完整工程工作流
  • 成本下降
  • 使用门槛降低
  • 全场景工具覆盖

无论是开发者、企业团队还是个人工作者,Opus 4.5 都是一个必须关注、必须尝试的新一代基准模型。

原创文章,更多AI科技、提示词微信搜索橙市播客小程序



微信扫描下方的二维码阅读更多精彩内容

打赏
ChatGPT 推出全新“购物研究”功能:你的 AI 私人购物顾问正式上线
上一篇
腾讯混元HunyuanOCR开源:1B参数横扫SOTA,多模态端到端OCR技术新标杆
下一篇
标签
#AI #AI生图 #Nano Banana #即梦 #可灵 #科技 #豆包 #人像 #chatgpt #产品设计 #OpenAI #模型 #开源 #城市名片 #Gemini #马斯克 #Google #3D #写真 #AI视频 #UI #claude #计算机视觉 #苹果 #DeepSeek #电商 #iPhone #播客 #谷歌 #AI设计 #腾讯 #特斯拉 #grok #阿里 #sora #tesla #IDE #买车 #选车 #干货 #搜索 #汽车 #机器人 #Anthropic #通义 #space #星舰 #智慧城市 #OCR #Atlas #微信 #AI手办 #混元 #英伟达 #NVIDIA #宇宙 #veo #百度 #浏览器 #地理空间 #Agent #工作流 #自动化 #AI编码 #iPhone17 #AI搜索 #手办 #小米 #具身智能 #Gemma #火山引擎 #古风美学 #kimi #Qwen #小鹏 #李飞飞 #芯片 #思维链 #Meta #人工智能 #摄影艺术 #AI推理 #商业思维 #罗永浩 #西贝 #食品 #预制菜 #AI文字 #微软 #壁纸 #雷军 #智谱 #星际 #彗星 #Figure #数码 #旅游 #Broadcom #MacBook #Vision Pro #iPad #抖音 #多模态 #VR #RTFM #飞桨 #PaddlePaddle #Qoder #LLM #游戏 #海报 #卫星影像 #复古 #定格 #节日 #万圣节 #工具 #黄仁勋 #肖像 #Apple #金融 #量化 #炒股 #早报 #世界模型 #表情包 #百度世界 #文心 #萝卜快跑 #数字人 #千帆 #小程序 #群聊 #社交 #Optimus #擎天柱 #神经网络 #DeepMind #Antigravity #Cloudflare #bug #运维 #技术事故 #AI教育 #超级计算 #核能源 #AI数学 #小红书 #创业思维 #第一性原理 #问题拆解 #副业增长 #吴恩达 #行业洞察 #行业分析 #产业机遇 #投资方向 #AI手机 #安全对齐 #奖励机制 #插件 #Cursor #可穿戴 #AI硬件 #交流 #攻略 #资料 #脑机
生成中...
点赞是美意,赞赏是鼓励