
智谱多模态开源周项目总结:智谱一周开源总结:从多模态到语音交互
在 AI 正以前所未有的速度重塑数字世界的当下,“手机是否能被 AI 真实地使用”正在成为一个越来越重要的问题。智谱 AI 则选择用一种非常直接的方式回答它:开源 AutoGLM -- 一个让 AI 学会真正使用手机的系统。
让 AI 不再停留在聊天框里,而是真正进入用户每天要用的 App 里,像一个真正的助手那样完成任务。
一、AI 能不能“使用手机”?智谱试图回答的问题
长期以来,AI 的交互方式主要停留在对话框、指令框中。但对智谱团队而言,真正的智能应该具备一个更接近人的能力:
AI 能不能像人一样,拿起手机,进入一个 App,从头到尾完成一件任务?
他们设想的场景是非常具体的:
- 在外卖 App 中帮用户完成从选择到下单的全过程
- 在云手机里自动完成点赞、回复、批量处理通知
- 在企业环境中处理客服、销售、考勤等重复任务
而要实现这些,AI 需要具备一项全新的基础能力: “Phone Use” 能力 -- 即 AI 通过视觉理解手机界面,并执行稳定、可控的操作步骤。
AutoGLM 正是为此而生。
二、32 个月的探索:从“乱点”走向“可控动作”
自 2023 年 4 月起,智谱团队从零开始探索,让 AI 具备会用手机的基础能力。
这个过程分为三个关键阶段。
阶段一:从机械乱点 → 可控操作链路
在最初的版本中,AutoGLM 只能“点”“滑”,无法理解界面含义,经常迷路、卡住、甚至陷入死循环。
为了让 AI 真正能执行任务,团队用了一整年的时间重构整个体系:
- 构建“Phone Use” 能力框架
- 抽象人类使用手机的基本动作:点击、滑动、输入、截图、理解
- 让模型学会把自然语言拆成稳定、可回放的操作序列
- 让系统能处理真实世界的噪音:广告遮挡、弹窗、网络延迟等
直到 2024 年 10 月 25 日,AutoGLM 首次在真机上完成了完整操作链路,被业界视为:
全球首个具备 Phone Use 能力的 AI Agent。
这标志着“AI 会用手机”从概念变成现实。
阶段二:AI 发出人类历史上的第一个手机红包
2024 年 11 月,AutoGLM 完成了“AI 发出的第一个红包”。
不是脚本录制,不是 API 调用,而是:
- 看见界面
- 理解含义
- 执行点击
- 完成流程
这是一件象征意义极强的事,意味着:
AI 头一次具备了执行完整手机交互任务的能力。
从这一刻开始,人类第一次看到 -- 手机上的很多任务,本可以完全交给 AI。
阶段三:AutoGLM 2.0--走向云手机与大规模强化学习
2025 年,AutoGLM 进入第二阶段:规模化、专业化、安全化。
团队发布 AutoGLM 2.0,并提出:
- MobileRL
- ComputerRL
- AgentRL
AI 可以在 上千个虚拟设备中同步强化学习,操作的稳定性和泛化能力大幅提升。
更重要的是,智谱选择将 Agent 放进云手机,而不是用户真实手机:
- 云端独立运行
- 所有行为可审计、可回放
- 敏感数据完全隔离
- 用户可干预执行
这种设计遵循一个直觉:
让 AI 会用手机之前,必须确保它不会乱用手机。
团队甚至主动放弃了在微信这类高敏感 App 上操作,以最大程度保护用户隐私。
原创文章,更多AI科技内容,微信搜索橙市播客小程序
三、为什么在这个时点开源?智谱的三点思考
虽然 AutoGLM 已经能支撑真实应用、沉淀了厚重技术体系,但智谱仍选择在此时将其全部开源。他们给出了非常清晰的三点理由。
1. 一家公司做不完,“AI 会用手机”应该属于整个生态
如果手机智能化能力只掌握在少数厂商手里,意味着:
- 开发者的创新空间受限
- 用户的手机变成“别人家的入口”
AutoGLM 开源的意义是:
把“会用手机”这项核心能力,变成行业共同的基础设施。
任何团队都可以:
- 把它当积木嵌入系统
- 拆开重写
- 基于它构建自己的 AI 手机
从开源那一刻起,它就不再只是“智谱的 AutoGLM”,而是行业共同的起点。原创文章,更多AI科技内容,微信搜索 橙市 播客 小程序
2. 让数据和隐私永远留在使用者这一侧
Phone Use 能力的天花板意味着它可能触达最敏感的领域:
- 私人聊天
- 支付行为
- 相册、文件
- 企业内部系统
智谱明确表示:
隐私不应该掌握在平台一侧。
通过开源和私有化部署:
- 所有数据都由企业或用户自己掌控
- 所有行为可审计、可回放
- 权限清晰可控
- 手机的 AI 能力真正归用户所有
一句话:
技术属于生态,隐私属于用户。
3. 把 32 个月的成果,变成行业的“共同起跑线”
AutoGLM 的底层技术非常复杂:
- 大规模强化学习
- Phone Use 框架
- 上千次迭代调整
- 对真实世界界面问题的系统性探索
智谱希望:
- 厂商用它做出真正的 AI 原生手机
- 研究者从里面拆出论文、算法
- 个人开发者基于 demo 做出自己的产品
- 整个社区共同推动 Agent 爆发
AutoGLM 的开源,就是要让:
从今天开始,每个人都能拥有自己的手机 Agent。
四、开源内容:不是概念,而是一整套能直接跑起来的系统
智谱此次开放的是“全栈能力”,包括:
✔ 训练好的 AutoGLM 核心模型
✔ Phone Use 能力框架与工具链
✔ 覆盖 50+ 高频中文 App 的 demo 示例
✔ Android 适配层与工程示例
✔ 文档与快速上手指南
✔ MIT(模型)+ Apache-2.0(代码)的开放许可
这意味着开发者可以:
- 直接部署成自己的手机 Agent
- 拆出任意模块进行研究
- 完全重写并商用
- 构建自己的 AI 手机生态
AutoGLM 开源后,它不再属于某一家公司,而是属于整个行业。
五、未来:AutoGLM 不是答案,而是开端
AutoGLM 还远没有见过未来世界所有的 App。 也无法预见未来 AI 手机生态的全部形态。
但在 2025 年的这个节点,它提供了一个清晰的回答:
AI 能不能学会使用手机?答案是:可以。
正如 Andrej Karpathy 所说:
从今天起,人人都可以拥有自己的手机 Agent。
这不仅是 Agent 的元年, 更可能是 Agent 的十年 的开始。
未来,AutoGLM 团队仍将继续推动开源和研究,让那个人人身边的智能助理 -- 人们心中的“贾维斯”, 真正成为可能。
开源地址:https://github.com/zai-org/Open-AutoGLM
原创文章,更多AI科技内容,微信搜索 橙市 播客 小程序
微信扫描下方的二维码阅读更多精彩内容

声明:本站所有文章,如无特殊说明或标注,均为橙市播客原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
