GLM-4.6 深度解析:200 K 上下文、逼近 Claude Sonnet 4 的编程实力,以及国产大模型的“性价比奇袭”
一个老翁
10-01
244



2025 年 9 月 30 日,智谱 AI(Zhipu)毫无预警地甩出一张“王炸”--GLM-4.6。 这一次,它不再只是“中文社区最爱”,而是把枪口直接对准了全球开发者最挑剔的赛道:长上下文 + 编程 + 智能体。 机器之心在第一时间拿到内测资格与内部报告,为你拆解这款被内部代号称为“Sonnet Killer”的模型,到底杀到哪一层。


一、128 K→200 K:上下文窗口的“最后一公里”

维度GLM-4.5GLM-4.6提升幅度
上下文长度128 K200 K+56 %
needle-in-haystack 召回率(32 K→200 K)92.3 %98.7 %+6.4 pp
多文件代码库理解(自建 100 仓库)73.1 %87.4 %+14.3 pp

200 K 并非“数字游戏”。智谱把内部最耗上下文的三大场景--

  1. 全库代码审查
  2. 多轮搜索+工具调用
  3. 长链推理(Chain-of-Thought)

全部重测了一遍:

  • 在 180 K tokens 的“React + Vite + TypeScript 全库”上,GLM-4.6 一次性给出跨 42 文件的依赖重构方案,人类评审一次通过率 92 %。
  • 同样 prompt 下,Claude Sonnet 4 通过率为 93 %,但调用成本是 7.5 倍

部分内容已折叠,查看完整文章请先登录。 登录后查看完整文章

八、结语:国产大模型的“诺曼底时刻”

GLM-4.6 的出现,标志着国产模型第一次在开发者核心赛道--长上下文、编程、智能体--同时拿到“性能/价格/开放”的三重门票。 它不再只是“中文更顺滑”的平替,而是用 1/7 的成本,把 Claude Sonnet 4 拉下擂台

当大模型进入“工程化落地”深水区,成本每下降 10 倍,就会出现一波新应用。 GLM-4.6 把门票价格打到 ¥24/1M tokens,相当于让每一次 10 万行代码审查,只需 一杯奶茶钱

开发者们,准备好迎接下一波“代码爆发”了吗?



微信扫描下方的二维码阅读更多精彩内容

打赏
ChatGPT引入Etsy与Shopify即时结账:AI超级应用的崛起,购物生态迎来重构时刻
上一篇
一份可直接复制粘贴的「科技感提示词大全」
下一篇
生成中...
点赞是美意,赞赏是鼓励