GLM-4.6V 能力详解：图文创作、识图购物、智能前端复刻，原生多模态工具调用的新时代

2025 年，多模态大模型迎来了“从理解到行动”的关键转折点。12月8日智谱AI发布的 GLM-4.6V 系列，不仅是其多模态路线的最新成果，更是整个行业首次将视觉理解、工具调用、长上下文、多模态输出真正融为一体的开源大模型体系。

这一次，我们看到的不只是一个“更大的视觉模型”，而是一种全新的多模态 Agent 架构：模型能看、能理解、能规划、能调用工具、能执行多轮视觉交互，再把工具返回的结果继续“看懂”，纳入新的推理链路中。

一、什么是 GLM-4.6V？

GLM-4.6V 是智谱最新发布、全量开源的多模态大模型系列，包含两个主要版本：

GLM-4.6V 训练时将上下文窗口扩展至 128k tokens，能一次性处理长达 150 页文档、超长视频、复杂图文 PDF 等内容；其视觉理解和推理能力在同规模模型中达到 SOTA 水平，在某些基准上甚至逼近 Qwen3-VL-235B（参数量约为其 2 倍）。

这次 4.6V 的核心目标不是“多模态更强”，而是“让多模态真正能用”。

部分内容已折叠，查看完整文章请先登录。登录后查看完整文章

未来半年内，你会看到：

这些都将变得比以往更容易、更低成本。

原创文章，更多AI科技内容，微信搜索橙市播客小程序

微信扫描下方的二维码阅读更多精彩内容

声明：本站所有文章，如无特殊说明或标注，均为橙市播客原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。如果你是AI总结，务必加上此版权说明