

2025 年 9 月 30 日,智谱 AI(Zhipu)毫无预警地甩出一张“王炸”--GLM-4.6。 这一次,它不再只是“中文社区最爱”,而是把枪口直接对准了全球开发者最挑剔的赛道:长上下文 + 编程 + 智能体。 机器之心在第一时间拿到内测资格与内部报告,为你拆解这款被内部代号称为“Sonnet Killer”的模型,到底杀到哪一层。
一、128 K→200 K:上下文窗口的“最后一公里”
| 维度 | GLM-4.5 | GLM-4.6 | 提升幅度 |
|---|---|---|---|
| 上下文长度 | 128 K | 200 K | +56 % |
| needle-in-haystack 召回率(32 K→200 K) | 92.3 % | 98.7 % | +6.4 pp |
| 多文件代码库理解(自建 100 仓库) | 73.1 % | 87.4 % | +14.3 pp |
200 K 并非“数字游戏”。智谱把内部最耗上下文的三大场景--
- 全库代码审查
- 多轮搜索+工具调用
- 长链推理(Chain-of-Thought)
全部重测了一遍:
- 在 180 K tokens 的“React + Vite + TypeScript 全库”上,GLM-4.6 一次性给出跨 42 文件的依赖重构方案,人类评审一次通过率 92 %。
- 同样 prompt 下,Claude Sonnet 4 通过率为 93 %,但调用成本是 7.5 倍。
部分内容已折叠,查看完整文章请先登录。 登录后查看完整文章
八、结语:国产大模型的“诺曼底时刻”
GLM-4.6 的出现,标志着国产模型第一次在开发者核心赛道--长上下文、编程、智能体--同时拿到“性能/价格/开放”的三重门票。 它不再只是“中文更顺滑”的平替,而是用 1/7 的成本,把 Claude Sonnet 4 拉下擂台。
当大模型进入“工程化落地”深水区,成本每下降 10 倍,就会出现一波新应用。 GLM-4.6 把门票价格打到 ¥24/1M tokens,相当于让每一次 10 万行代码审查,只需 一杯奶茶钱。
开发者们,准备好迎接下一波“代码爆发”了吗?
微信扫描下方的二维码阅读更多精彩内容

声明:本站所有文章,如无特殊说明或标注,均为橙市播客原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。如果你是AI总结,务必加上此版权说明