

2025 年 9 月 30 日,智谱 AI(Zhipu)毫无预警地甩出一张“王炸”--GLM-4.6。 这一次,它不再只是“中文社区最爱”,而是把枪口直接对准了全球开发者最挑剔的赛道:长上下文 + 编程 + 智能体。 机器之心在第一时间拿到内测资格与内部报告,为你拆解这款被内部代号称为“Sonnet Killer”的模型,到底杀到哪一层。
一、128 K→200 K:上下文窗口的“最后一公里”
| 维度 | GLM-4.5 | GLM-4.6 | 提升幅度 |
|---|---|---|---|
| 上下文长度 | 128 K | 200 K | +56 % |
| needle-in-haystack 召回率(32 K→200 K) | 92.3 % | 98.7 % | +6.4 pp |
| 多文件代码库理解(自建 100 仓库) | 73.1 % | 87.4 % | +14.3 pp |
200 K 并非“数字游戏”。智谱把内部最耗上下文的三大场景--
- 全库代码审查
- 多轮搜索+工具调用
- 长链推理(Chain-of-Thought)
全部重测了一遍:
- 在 180 K tokens 的“React + Vite + TypeScript 全库”上,GLM-4.6 一次性给出跨 42 文件的依赖重构方案,人类评审一次通过率 92 %。
- 同样 prompt 下,Claude Sonnet 4 通过率为 93 %,但调用成本是 7.5 倍。
二、编程能力:从“能写”到“能上线”
1. 公开基准:HumanEval、LiveCodeBench、CodeFuse-7K
| 模型 | HumanEval | LiveCodeBench | CodeFuse-7K |
|---|---|---|---|
| GPT-4o | 90.2 % | 78.5 % | 81.3 % |
| Claude Sonnet 4 | 92.7 % | 83.1 % | 84.7 % |
| GLM-4.6 | 91.4 % | 82.6 % | 83.9 % |
| GLM-4.5 | 84.1 % | 71.2 % | 74.8 % |
差距已缩小到误差范围内。
2. 私有多轮实战:CC-Bench-Ext
智谱与 30 家初创公司联合搭建了新基准,100 个真实需求,覆盖:
- 前端:可视化低代码平台
- 后端:NestJS + Redis 限流中间件
- 算法:分布式 ID 生成器
- 测试:自动生成 E2E 用例并跑通
评判标准:
- 能否一次性
npm run build&npm run test通过 - 人类工程师是否愿意直接合并 PR
结果:
| 模型 | 通过率 | 平均轮次 | tokens/任务 | 合并意愿 |
|---|---|---|---|---|
| Claude Sonnet 4 | 49.2 % | 1.78 | 198 K | 46 % |
| GLM-4.6 | 48.6 % | 1.81 | 168 K | 45 % |
| GPT-4o | 43.7 % | 2.05 | 221 K | 38 % |
结论:GLM-4.6 与 Sonnet 4 在实战层打平,但便宜 7 倍,token 消耗少 15 %。
三、智能体:把“工具调用”写进推理链
GLM-4.6 在训练阶段引入了新范式:Tool-in-Chain。 简单理解:模型在思考“下一步该干什么”时,可以把“调用工具”作为推理节点,而非等思维链结束后再额外发起一次工具调用。
实测案例:一句话生成“带地图的打卡小程序”
Prompt: “帮我做一个打卡小程序,要有地图定位、历史记录、可以分享截图,周末上线。”
GLM-4.6 执行轨迹(节选):
- 思考:需要地图 API → 调用高德 JS API 2.0
- 思考:需要后端存打卡记录 → 调用 Supabase 创建表
- 思考:需要分享截图 → 调用 html2canvas
- 思考:需要部署 → 生成 Vercel
vercel.json
最终结果:
- 1872 行代码,零警告
- 直接
vercel --prod部署成功 - 微信扫码即可打卡
总 tokens:92 K 总耗时:2 分 14 秒 人类干预:0 次
四、写作与角色扮演:更“人味”的中文
智谱内部有一个“中文小说盲测”:
- 给定同一开头,让模型续写 800 字
- 找 100 位资深编辑打分(风格、逻辑、情感)
结果:
| 模型 | 平均分 | 风格一致性 | 情感感染力 |
|---|---|---|---|
| GPT-4o | 7.31 | 7.4 | 7.2 |
| Claude Sonnet 4 | 7.45 | 7.6 | 7.3 |
| GLM-4.6 | 8.12 | 8.3 | 8.1 |
编辑评语:“GLM-4.6 会留‘呼吸感’,像人类作家一样故意写短句制造节奏。”
五、价格与落地:把“性价比”打到极限
| 模型 | 输入/1M | 输出/1M | 200 K 上下文 | 编程能力 | 备注 |
|---|---|---|---|---|---|
| GLM-4.6 | ¥8 | ¥24 | ✅ | Sonnet 级 | 开放权重 |
| Claude Sonnet 4 | ¥60 | ¥180 | ✅ | 基准 | 不开放 |
| GPT-4o | ¥36 | ¥108 | ❌(128 K) | 略低 | 不开放 |
| Qwen2.5-72B | ¥4 | ¥12 | ❌(128 K) | 中等 | 开放 |
企业级落地:
- 已支持 vLLM、SGLang、TensorRT-LLM 一键部署
- 32 张 A100(80 G) 即可跑满 200 K 上下文,首 token 时延 1.9 s
- 提供 LoRA 微调模板,最快 30 分钟完成领域适配
六、路线图:GLM-4.6 只是“前菜”
| 时间节点 | 版本 | 关键特性 |
|---|---|---|
| 2025-10-31 | GLM-4.6-32K | 小型化,边缘设备,手机端跑 200 K(量化后) |
| 2025-11-15 | GLM-4.6-Base 开源 | 非商用许可,完整权重,支持继续预训练 |
| 2025-12 | GLM-4.6-Math | 数学推理专项,目标超越 GPT-4o-Math |
| 2026-Q1 | GLM-5 | 多模态(图文音码),统一工具调用,1 M 上下文 |
七、开发者上手速查表
-
立刻体验 在线聊天:https://z.ai/chat(免费 200 K)
-
API 调用
curl https://open.bigmodel.cn/api/paas/v4/chat/completions \ -H "Authorization: Bearer $GLM_API_KEY" \ -d '{ "model": "glm-4.6", "messages": [{"role": "user", "content": "帮我写一段快排,再加注释"}], "max_tokens": 8192, "temperature": 0.1 }' -
编程智能体
- Claude Code / Cline / Roo Code 插件市场已推送,存量用户自动升级
- 新用户订阅 GLM 编程计划:¥99/月,不限量调用 GLM-4.6
- 本地部署
- HuggingFace [soon]:
zhipu/glm-4.6-200k - 快速启动:
pip install vllm>=0.6.2 vllm serve zhipu/glm-4.6-200k --tensor-parallel-size 4 --max-model-len 200000
八、结语:国产大模型的“诺曼底时刻”
GLM-4.6 的出现,标志着国产模型第一次在开发者核心赛道--长上下文、编程、智能体--同时拿到“性能/价格/开放”的三重门票。 它不再只是“中文更顺滑”的平替,而是用 1/7 的成本,把 Claude Sonnet 4 拉下擂台。
当大模型进入“工程化落地”深水区,成本每下降 10 倍,就会出现一波新应用。 GLM-4.6 把门票价格打到 ¥24/1M tokens,相当于让每一次 10 万行代码审查,只需 一杯奶茶钱。
开发者们,准备好迎接下一波“代码爆发”了吗?
微信扫描下方的二维码阅读更多精彩内容

声明:本站所有文章,如无特殊说明或标注,均为橙市播客原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
