GLM-4.6 深度解析:200 K 上下文、逼近 Claude Sonnet 4 的编程实力,以及国产大模型的“性价比奇袭”
一个老翁
10-01
107

GLM-4.6 深度解析:200 K 上下文、逼近 Claude Sonnet 4 的编程实力,以及国产大模型的“性价比奇袭”
GLM-4.6 深度解析:200 K 上下文、逼近 Claude Sonnet 4 的编程实力,以及国产大模型的“性价比奇袭”

2025 年 9 月 30 日,智谱 AI(Zhipu)毫无预警地甩出一张“王炸”--GLM-4.6。 这一次,它不再只是“中文社区最爱”,而是把枪口直接对准了全球开发者最挑剔的赛道:长上下文 + 编程 + 智能体。 机器之心在第一时间拿到内测资格与内部报告,为你拆解这款被内部代号称为“Sonnet Killer”的模型,到底杀到哪一层。


一、128 K→200 K:上下文窗口的“最后一公里”

维度GLM-4.5GLM-4.6提升幅度
上下文长度128 K200 K+56 %
needle-in-haystack 召回率(32 K→200 K)92.3 %98.7 %+6.4 pp
多文件代码库理解(自建 100 仓库)73.1 %87.4 %+14.3 pp

200 K 并非“数字游戏”。智谱把内部最耗上下文的三大场景--

  1. 全库代码审查
  2. 多轮搜索+工具调用
  3. 长链推理(Chain-of-Thought)

全部重测了一遍:

  • 在 180 K tokens 的“React + Vite + TypeScript 全库”上,GLM-4.6 一次性给出跨 42 文件的依赖重构方案,人类评审一次通过率 92 %。
  • 同样 prompt 下,Claude Sonnet 4 通过率为 93 %,但调用成本是 7.5 倍

二、编程能力:从“能写”到“能上线”

1. 公开基准:HumanEval、LiveCodeBench、CodeFuse-7K

模型HumanEvalLiveCodeBenchCodeFuse-7K
GPT-4o90.2 %78.5 %81.3 %
Claude Sonnet 492.7 %83.1 %84.7 %
GLM-4.691.4 %82.6 %83.9 %
GLM-4.584.1 %71.2 %74.8 %

差距已缩小到误差范围内

2. 私有多轮实战:CC-Bench-Ext

智谱与 30 家初创公司联合搭建了新基准,100 个真实需求,覆盖:

  • 前端:可视化低代码平台
  • 后端:NestJS + Redis 限流中间件
  • 算法:分布式 ID 生成器
  • 测试:自动生成 E2E 用例并跑通

评判标准

  • 能否一次性 npm run build & npm run test 通过
  • 人类工程师是否愿意直接合并 PR

结果

模型通过率平均轮次tokens/任务合并意愿
Claude Sonnet 449.2 %1.78198 K46 %
GLM-4.648.6 %1.81168 K45 %
GPT-4o43.7 %2.05221 K38 %

结论:GLM-4.6 与 Sonnet 4 在实战层打平,但便宜 7 倍token 消耗少 15 %


三、智能体:把“工具调用”写进推理链

GLM-4.6 在训练阶段引入了新范式:Tool-in-Chain。 简单理解:模型在思考“下一步该干什么”时,可以把“调用工具”作为推理节点,而非等思维链结束后再额外发起一次工具调用。

实测案例:一句话生成“带地图的打卡小程序”

Prompt: “帮我做一个打卡小程序,要有地图定位、历史记录、可以分享截图,周末上线。”

GLM-4.6 执行轨迹(节选):

  1. 思考:需要地图 API → 调用高德 JS API 2.0
  2. 思考:需要后端存打卡记录 → 调用 Supabase 创建表
  3. 思考:需要分享截图 → 调用 html2canvas
  4. 思考:需要部署 → 生成 Vercel vercel.json

最终结果

  • 1872 行代码,零警告
  • 直接 vercel --prod 部署成功
  • 微信扫码即可打卡

总 tokens:92 K 总耗时:2 分 14 秒 人类干预:0 次


四、写作与角色扮演:更“人味”的中文

智谱内部有一个“中文小说盲测”:

  • 给定同一开头,让模型续写 800 字
  • 找 100 位资深编辑打分(风格、逻辑、情感)

结果

模型平均分风格一致性情感感染力
GPT-4o7.317.47.2
Claude Sonnet 47.457.67.3
GLM-4.68.128.38.1

编辑评语:“GLM-4.6 会留‘呼吸感’,像人类作家一样故意写短句制造节奏。”


五、价格与落地:把“性价比”打到极限

模型输入/1M输出/1M200 K 上下文编程能力备注
GLM-4.6¥8¥24Sonnet 级开放权重
Claude Sonnet 4¥60¥180基准不开放
GPT-4o¥36¥108❌(128 K)略低不开放
Qwen2.5-72B¥4¥12❌(128 K)中等开放

企业级落地

  • 已支持 vLLM、SGLang、TensorRT-LLM 一键部署
  • 32 张 A100(80 G) 即可跑满 200 K 上下文,首 token 时延 1.9 s
    • 提供 LoRA 微调模板,最快 30 分钟完成领域适配

六、路线图:GLM-4.6 只是“前菜”

时间节点版本关键特性
2025-10-31GLM-4.6-32K小型化,边缘设备,手机端跑 200 K(量化后)
2025-11-15GLM-4.6-Base 开源非商用许可,完整权重,支持继续预训练
2025-12GLM-4.6-Math数学推理专项,目标超越 GPT-4o-Math
2026-Q1GLM-5多模态(图文音码),统一工具调用,1 M 上下文

七、开发者上手速查表

  1. 立刻体验 在线聊天:https://z.ai/chat(免费 200 K)

  2. API 调用

    curl https://open.bigmodel.cn/api/paas/v4/chat/completions \
    -H "Authorization: Bearer $GLM_API_KEY" \
    -d '{
    "model": "glm-4.6",
    "messages": [{"role": "user", "content": "帮我写一段快排,再加注释"}],
    "max_tokens": 8192,
    "temperature": 0.1
    }'
  3. 编程智能体

  • Claude Code / Cline / Roo Code 插件市场已推送,存量用户自动升级
  • 新用户订阅 GLM 编程计划:¥99/月,不限量调用 GLM-4.6
  1. 本地部署
  • HuggingFace [soon]:zhipu/glm-4.6-200k
  • 快速启动:
    pip install vllm>=0.6.2
    vllm serve zhipu/glm-4.6-200k --tensor-parallel-size 4 --max-model-len 200000

八、结语:国产大模型的“诺曼底时刻”

GLM-4.6 的出现,标志着国产模型第一次在开发者核心赛道--长上下文、编程、智能体--同时拿到“性能/价格/开放”的三重门票。 它不再只是“中文更顺滑”的平替,而是用 1/7 的成本,把 Claude Sonnet 4 拉下擂台

当大模型进入“工程化落地”深水区,成本每下降 10 倍,就会出现一波新应用。 GLM-4.6 把门票价格打到 ¥24/1M tokens,相当于让每一次 10 万行代码审查,只需 一杯奶茶钱

开发者们,准备好迎接下一波“代码爆发”了吗?



微信扫描下方的二维码阅读更多精彩内容

打赏
ChatGPT引入Etsy与Shopify即时结账:AI超级应用的崛起,购物生态迎来重构时刻
上一篇
一份可直接复制粘贴的「科技感提示词大全」
下一篇
标签
#AI #AI生图 #Nano Banana #即梦 #可灵 #科技 #豆包 #人像 #chatgpt #产品设计 #OpenAI #模型 #开源 #城市名片 #Gemini #马斯克 #Google #3D #写真 #AI视频 #UI #claude #计算机视觉 #苹果 #DeepSeek #电商 #iPhone #播客 #谷歌 #AI设计 #腾讯 #特斯拉 #grok #阿里 #sora #tesla #IDE #买车 #选车 #干货 #搜索 #汽车 #机器人 #Anthropic #通义 #space #星舰 #智慧城市 #OCR #Atlas #微信 #AI手办 #混元 #英伟达 #NVIDIA #宇宙 #veo #百度 #浏览器 #地理空间 #工具 #Agent #工作流 #自动化 #AI编码 #iPhone17 #AI搜索 #手办 #小米 #智谱 #具身智能 #Gemma #火山引擎 #多模态 #古风美学 #kimi #Qwen #小鹏 #李飞飞 #芯片 #思维链 #Meta #人工智能 #摄影艺术 #AI推理 #商业思维 #桌面 #办公 #罗永浩 #西贝 #食品 #预制菜 #AI文字 #微软 #壁纸 #雷军 #星际 #彗星 #Figure #数码 #旅游 #Broadcom #MacBook #Vision Pro #iPad #抖音 #VR #RTFM #飞桨 #PaddlePaddle #Qoder #LLM #游戏 #海报 #卫星影像 #复古 #定格 #节日 #万圣节 #黄仁勋 #肖像 #Apple #金融 #量化 #炒股 #早报 #世界模型 #表情包 #百度世界 #文心 #萝卜快跑 #数字人 #千帆 #小程序 #群聊 #社交 #Optimus #擎天柱 #神经网络 #DeepMind #Antigravity #Cloudflare #bug #运维 #技术事故 #AI教育 #超级计算 #核能源 #AI数学 #小红书 #创业思维 #第一性原理 #问题拆解 #副业增长 #吴恩达 #行业洞察 #行业分析 #产业机遇 #投资方向 #AI手机 #安全对齐 #奖励机制 #插件 #Cursor #可穿戴 #AI硬件 #glm-v #交流 #攻略 #资料 #脑机
生成中...
点赞是美意,赞赏是鼓励