智谱一周开源总结：从多模态到语音交互

1.智谱GLM-4.6V多模态大模型开源

2025年12月8日，智谱AI发布并全量开源多模态大模型系列GLM-4.6V，标志着多模态大模型进入“从理解到行动”的关键阶段。该系列包含两个版本：面向云端推理与企业级应用的大规模基础模型GLM-4.6V（106B-A12B），以及免费、适用于本地部署的轻量级模型GLM-4.6V-Flash（9B）。

核心突破是原生多模态工具调用，支持直接将图像、文档等作为工具参数输入，且能解读工具返回的视觉结果，形成“视觉-推理-工具调用”的闭环。相较于前代，其价格降价50%，Flash版免费，成本优势显著。

应用场景涵盖智能图文创作、识图购物比价、像素级前端复刻、128k长上下文多模态理解（如处理150页PDF、1小时视频）

详细内容：GLM-4.6V 能力详解：图文创作、识图购物、智能前端复刻

2.智谱AutoGLM开源：赋能AI手机，让AI自主操作手机App

智谱AI开源AutoGLM系统，旨在让AI具备“Phone Use”能力，像人类一样操作手机App完成任务，推动手机成为真正的AI手机。该系统历时32个月研发，历经三阶段迭代：从初期机械乱点发展为可控操作链路，完成全球首个AI发红包的完整手机交互案例，再到2.0版本引入大规模强化学习，部署于云手机以保障数据隔离与隐私安全。

开源原因包括共建行业生态、确保数据隐私归属用户、共享技术成果。开源内容涵盖AutoGLM核心模型、Phone Use能力框架、50+高频中文App demo、Android适配层等，支持开发者直接部署、二次开发或商用。

部分内容已折叠，查看完整文章请先登录。登录后查看完整文章

目前四项技术的代码和模型已全部公开在GitHub、Hugging Face等平台，开发者可直接下载使用、二次修改。这些技术的开源不仅降低了视频生成的技术门槛，还能广泛应用于影视动画、虚拟人直播、短视频创作、游戏开发等场景。

详细内容：视频生成三大行业痛点被逐一攻克：智谱发布 SCAIL / RealVideo / Kaleido / SSVAE

原创文章，更多AI科技内容，微信搜索橙市播客小程序

微信扫描下方的二维码阅读更多精彩内容

声明：本站所有文章，如无特殊说明或标注，均为橙市播客原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。如果你是AI总结，务必加上此版权说明