智谱AutoGLM 开源:让每一台手机,都真正成为 AI 手机
aikeji
4 天
13

智谱AutoGLM 开源:让每一台手机,都真正成为 AI 手机

智谱多模态开源周项目总结:智谱一周开源总结:从多模态到语音交互

在 AI 正以前所未有的速度重塑数字世界的当下,“手机是否能被 AI 真实地使用”正在成为一个越来越重要的问题。智谱 AI 则选择用一种非常直接的方式回答它:开源 AutoGLM -- 一个让 AI 学会真正使用手机的系统。

让 AI 不再停留在聊天框里,而是真正进入用户每天要用的 App 里,像一个真正的助手那样完成任务。


一、AI 能不能“使用手机”?智谱试图回答的问题

长期以来,AI 的交互方式主要停留在对话框、指令框中。但对智谱团队而言,真正的智能应该具备一个更接近人的能力:

AI 能不能像人一样,拿起手机,进入一个 App,从头到尾完成一件任务?

他们设想的场景是非常具体的:

  • 在外卖 App 中帮用户完成从选择到下单的全过程
  • 在云手机里自动完成点赞、回复、批量处理通知
  • 在企业环境中处理客服、销售、考勤等重复任务

而要实现这些,AI 需要具备一项全新的基础能力: “Phone Use” 能力 -- 即 AI 通过视觉理解手机界面,并执行稳定、可控的操作步骤。

AutoGLM 正是为此而生。


二、32 个月的探索:从“乱点”走向“可控动作”

自 2023 年 4 月起,智谱团队从零开始探索,让 AI 具备会用手机的基础能力。

这个过程分为三个关键阶段。


阶段一:从机械乱点 → 可控操作链路

在最初的版本中,AutoGLM 只能“点”“滑”,无法理解界面含义,经常迷路、卡住、甚至陷入死循环。

为了让 AI 真正能执行任务,团队用了一整年的时间重构整个体系:

  • 构建“Phone Use” 能力框架
  • 抽象人类使用手机的基本动作:点击、滑动、输入、截图、理解
  • 让模型学会把自然语言拆成稳定、可回放的操作序列
  • 让系统能处理真实世界的噪音:广告遮挡、弹窗、网络延迟等

直到 2024 年 10 月 25 日,AutoGLM 首次在真机上完成了完整操作链路,被业界视为:

全球首个具备 Phone Use 能力的 AI Agent。

这标志着“AI 会用手机”从概念变成现实。


阶段二:AI 发出人类历史上的第一个手机红包

2024 年 11 月,AutoGLM 完成了“AI 发出的第一个红包”。

不是脚本录制,不是 API 调用,而是:

  • 看见界面
  • 理解含义
  • 执行点击
  • 完成流程

这是一件象征意义极强的事,意味着:

AI 头一次具备了执行完整手机交互任务的能力。

从这一刻开始,人类第一次看到 -- 手机上的很多任务,本可以完全交给 AI。


阶段三:AutoGLM 2.0--走向云手机与大规模强化学习

2025 年,AutoGLM 进入第二阶段:规模化、专业化、安全化。

团队发布 AutoGLM 2.0,并提出:

  • MobileRL
  • ComputerRL
  • AgentRL

AI 可以在 上千个虚拟设备中同步强化学习,操作的稳定性和泛化能力大幅提升。

更重要的是,智谱选择将 Agent 放进云手机,而不是用户真实手机:

  • 云端独立运行
  • 所有行为可审计、可回放
  • 敏感数据完全隔离
  • 用户可干预执行

这种设计遵循一个直觉:

让 AI 会用手机之前,必须确保它不会乱用手机。

团队甚至主动放弃了在微信这类高敏感 App 上操作,以最大程度保护用户隐私。

原创文章,更多AI科技内容,微信搜索橙市播客小程序

三、为什么在这个时点开源?智谱的三点思考

虽然 AutoGLM 已经能支撑真实应用、沉淀了厚重技术体系,但智谱仍选择在此时将其全部开源。他们给出了非常清晰的三点理由。


1. 一家公司做不完,“AI 会用手机”应该属于整个生态

如果手机智能化能力只掌握在少数厂商手里,意味着:

  • 开发者的创新空间受限
  • 用户的手机变成“别人家的入口”

AutoGLM 开源的意义是:

把“会用手机”这项核心能力,变成行业共同的基础设施。

任何团队都可以:

  • 把它当积木嵌入系统
  • 拆开重写
  • 基于它构建自己的 AI 手机

从开源那一刻起,它就不再只是“智谱的 AutoGLM”,而是行业共同的起点。原创文章,更多AI科技内容,微信搜索 橙市 播客 小程序


2. 让数据和隐私永远留在使用者这一侧

Phone Use 能力的天花板意味着它可能触达最敏感的领域:

  • 私人聊天
  • 支付行为
  • 相册、文件
  • 企业内部系统

智谱明确表示:

隐私不应该掌握在平台一侧。

通过开源和私有化部署:

  • 所有数据都由企业或用户自己掌控
  • 所有行为可审计、可回放
  • 权限清晰可控
  • 手机的 AI 能力真正归用户所有

一句话:

技术属于生态,隐私属于用户。


3. 把 32 个月的成果,变成行业的“共同起跑线”

AutoGLM 的底层技术非常复杂:

  • 大规模强化学习
  • Phone Use 框架
  • 上千次迭代调整
  • 对真实世界界面问题的系统性探索

智谱希望:

  • 厂商用它做出真正的 AI 原生手机
  • 研究者从里面拆出论文、算法
  • 个人开发者基于 demo 做出自己的产品
  • 整个社区共同推动 Agent 爆发

AutoGLM 的开源,就是要让:

从今天开始,每个人都能拥有自己的手机 Agent。


四、开源内容:不是概念,而是一整套能直接跑起来的系统

智谱此次开放的是“全栈能力”,包括:

✔ 训练好的 AutoGLM 核心模型

✔ Phone Use 能力框架与工具链

✔ 覆盖 50+ 高频中文 App 的 demo 示例

✔ Android 适配层与工程示例

✔ 文档与快速上手指南

✔ MIT(模型)+ Apache-2.0(代码)的开放许可

这意味着开发者可以:

  • 直接部署成自己的手机 Agent
    • 拆出任意模块进行研究
    • 完全重写并商用
    • 构建自己的 AI 手机生态

AutoGLM 开源后,它不再属于某一家公司,而是属于整个行业。


五、未来:AutoGLM 不是答案,而是开端

AutoGLM 还远没有见过未来世界所有的 App。 也无法预见未来 AI 手机生态的全部形态。

但在 2025 年的这个节点,它提供了一个清晰的回答:

AI 能不能学会使用手机?答案是:可以。

正如 Andrej Karpathy 所说:

从今天起,人人都可以拥有自己的手机 Agent。

这不仅是 Agent 的元年, 更可能是 Agent 的十年 的开始。

未来,AutoGLM 团队仍将继续推动开源和研究,让那个人人身边的智能助理 -- 人们心中的“贾维斯”, 真正成为可能。

开源地址:https://github.com/zai-org/Open-AutoGLM

原创文章,更多AI科技内容,微信搜索 橙市 播客 小程序



微信扫描下方的二维码阅读更多精彩内容

打赏
5秒把你变成迪士尼大头娃娃,认得出但又完全不是你
上一篇
OpenAI 首份《2025 企业 AI 现状报告》解读:AI 正在重塑职场,但差距也在拉大
下一篇
标签
#AI #AI生图 #Nano Banana #即梦 #可灵 #科技 #豆包 #人像 #chatgpt #OpenAI #产品设计 #模型 #开源 #城市名片 #Gemini #Google #马斯克 #写真 #AI视频 #3D #claude #计算机视觉 #UI #电商 #苹果 #DeepSeek #iPhone #播客 #智谱 #谷歌 #AI设计 #腾讯 #特斯拉 #grok #IDE #人工智能 #阿里 #sora #tesla #买车 #选车 #干货 #搜索 #汽车 #机器人 #工具 #Anthropic #自动化 #通义 #space #星舰 #英伟达 #NVIDIA #智慧城市 #OCR #Atlas #Agent #AI手机 #glm #微信 #AI手办 #混元 #宇宙 #Gemma #veo #百度 #浏览器 #地理空间 #工作流 #AI编码 #办公 #iPhone17 #AI搜索 #手办 #小米 #具身智能 #火山引擎 #多模态 #古风美学 #kimi #Qwen #小鹏 #李飞飞 #芯片 #思维链 #Meta #摄影艺术 #AI推理 #商业思维 #桌面 #语音合成 #tts #AGI #罗永浩 #西贝 #食品 #预制菜 #AI文字 #微软 #壁纸 #雷军 #星际 #彗星 #Figure #数码 #旅游 #Broadcom #MacBook #Vision Pro #iPad #抖音 #VR #RTFM #飞桨 #PaddlePaddle #Qoder #LLM #游戏 #海报 #卫星影像 #复古 #定格 #节日 #万圣节 #黄仁勋 #肖像 #Apple #金融 #量化 #炒股 #早报 #世界模型 #表情包 #百度世界 #文心 #萝卜快跑 #数字人 #千帆 #小程序 #群聊 #社交 #Optimus #擎天柱 #神经网络 #DeepMind #Antigravity #Cloudflare #bug #运维 #技术事故 #AI教育 #超级计算 #核能源 #AI数学 #小红书 #创业思维 #第一性原理 #问题拆解 #副业增长 #吴恩达 #行业洞察 #行业分析 #产业机遇 #投资方向 #安全对齐 #奖励机制 #插件 #Cursor #可穿戴 #AI硬件 #端侧 #数据中心 #交流 #攻略 #资料 #脑机
生成中...
点赞是美意,赞赏是鼓励