

当浏览器开始“替你思考”,互联网会变成什么样?
2025 年 10 月,OpenAI 毫无预警地扔下一颗“浏览器炸弹”--ChatGPT Atlas。它不再满足于做一个网页里的聊天侧边栏,而是直接把 ChatGPT 做成了一颗“心脏”,驱动整个浏览器的每一次点击、每一次输入、每一次跳转。 本文基于 OpenAI 官方直播实录,为你拆解 Atlas 的每一根神经末梢,带你提前体验这场可能持续十年的交互范式革命。
一、为什么“重做浏览器”?
自 1993 年 Mosaic 诞生以来,浏览器的核心交互就再没变过: 地址栏 → 搜索框 → 标签页 → 点击 → 复制 → 粘贴 → 再点击。 OpenAI 认为,AI 让“对话”成为比鼠标更自然的接口;大模型让“记忆”成为比书签更强大的索引;多模态让“代理”成为比人类更快准稳的操作员。 于是,他们决定把浏览器“回炉重造”,代号 Atlas--一个以 ChatGPT 为内核、以自然语言为交互、以任务执行为终点的 AI Native Browser。
二、Atlas 的“三把斧”:Chat Anywhere|Browser Memory|Agent Mode

1. Chat Anywhere:把 ChatGPT 钉在每一个像素上
- 入口:任何网页右上角都会出现“Ask ChatGPT”按钮,一键呼出侧边栏。
- 上下文:自动读取当前页面全文、代码、甚至图片(演示里直接解析了 GitHub diff)。
- 多轮 Workshop:不再是一次性问答,可连续追问、迭代、撤回,像和同事面对面“掰扯”需求。
- 场景举例
- 在 Gmail 写邮件:选中“我感觉这语气太冲”,让 Atlas 改得“更委婉 yet 不失立场”。
- 在 Notion 写 PRD:直接丢一句“帮我把这段补两个数据支撑”,Atlas 会现场 Google 并插入引用。
2. Browser Memory:让浏览器长出“海马体”

- 记忆粒度:访问过的链接、停留时长、复制过的文本、你让 Atlas 改过的句子。
- 召回方式:自然语言搜索--“我上周看过的一份 Figma 设计稿,提到加载状态”即可直接打开。
- 个性化主页:新标签页不再只是“快捷网址”,而是根据记忆实时生成的“下一步建议”:
- 你可能想把昨晚的会议纪要整理成 Linear 任务;
- 你可能对某条新闻想继续深挖;
- 你可能想把购物车里的书下单。
- 隐私兜底:一键查看所有记忆条目,逐条删除或整库清空;隐身窗口全程“零记录”。
3. Agent Mode:把“说”直接变成“做”

- 核心能力
- 视觉定位:识别按钮、输入框、下拉菜单;
- 操作序列:点击、输入、滚动、跳转、等待、提交;
- 本地身份:继承用户 Cookie,自动登录网站;
- 异常处理:遇到验证码或二次确认会暂停并提示用户。
- 官方演示任务
- 读取 Google Docs 里未填写的 ToDo → 在 Linear 建 issue → @对应同事 → 回 Docs 写评论提醒;
- 读取食谱 → 按 8 人份计算食材 → 打开 Instacart → 自动搜索并加入购物车 → 人类只负责最后付款。
- 安全护栏
- 只能操控“当前标签页”,无法读写本地文件;
- 任何涉及支付、发邮件、删除资源的动作,默认停在“确认前一步”;
- 用户可随时夺回鼠标键盘,Agent 立即让位。
三、现场 Demo 全复盘:一小时,六个高光瞬间
| 时间 | 场景 | 输入一句话 | Atlas 完成度 |
|---|---|---|---|
| 05:00 | 主页 | “打开我昨晚看的 galaxy shader GitHub” | 直接定位到具体 commit |
| 12:00 | 代码 Review | “这改动能 Hotfix 吗?” | 逐行分析风险,结论“视觉变更,低风险” |
| 18:00 | 搜索 | “Anora 电影评价” | 分屏展示 Roger Ebert 四星长评 → 五词总结“PTA 巅峰” |
| 25:00 | Gmail | “tidy up my language” | 把口语化草稿改成正式邮件,一键替换 |
| 35:00 | 项目管理 | “把 Docs 任务同步到 Linear” | 全自动建 6 条 issue,@成员,回写评论 |
| 42:00 | 购物 | “按 8 人份下单食材” | 2 分钟填好 Instacart 购物车,人类确认即可付款 |
四、技术深潜:Atlas 是如何“看见”并“动手”的?
- 视觉解析:采用类似 GPT-4V 的多模态模型,对 DOM 树 + 渲染位图联合编码,定位可交互元素。
- 操作序列生成:强化学习在浏览器环境模拟中预训练,奖励函数 = “任务完成度 - 步数 - 用户干预次数”。
- 本地沙箱:Agent 脚本跑在浏览器 Extension 的 isolated context,权限模型对标 Chrome 的 Manifest V3,无本地文件 API。
- 记忆存储:向量数据库(疑似基于 OpenAI 自研的 ann-benchmarks 冠军方案)嵌入本地 SQLite,密钥存在 Apple Keychain,随系统加密。
五、隐私与伦理:OpenAI 给出的“五指守则”
- 透明度:所有记忆可查看、可搜索、可逐条删除。
- 最小可用:Agent 默认“登出”状态,需要才授权 Cookie。
- 即时撤销:任务执行中,任何时刻点击页面任意位置即可暂停。
- 零跨站追踪:记忆数据不与 OpenAI 服务器同步,不出现在 ChatGPT 云端历史。
- 用户教育:首次开启 Agent 时强制播放 30 秒安全指引,强调“它不能替你签字,也不能替你刷卡”。
六、未来路线图:Atlas 只是冰山一角
OpenAI 在直播最后放出了三张未上色的“原型图”:
- 跨设备协同:手机拍照 → Atlas 桌面端立即识别并插入 Docs。
- 主动代理:根据日历“周年纪念日”自动提前订餐厅、选礼物、写卡片。
- vibe Living:一句话“帮我规划一次 5 天京都红叶之旅”,Atlas 自动比价机票、选民宿、排每日路线、预约餐厅,生成一份 Notion 行程表。
Sam Altman 的原话:“我们希望五年内,Atlas 成为大多数人的‘互联网操作系统’。”
七、立刻体验:如何抢先试用 Atlas?
- 更新 ChatGPT 至最新版(macOS)。
- 设置 → Labs → 开启“Atlas Browser Preview”。
- 新建标签页即可进入 Atlas;Agent 模式需 Plus/Pro 订阅。
- 官方提示:目前仅英文界面,对复杂中文网页的 Agent 支持仍在优化。
八、结语:浏览器的新二十年,从 Atlas 开始
从 Mosaic 到 Chrome,我们见证了信息获取的民主化; 从 Atlas 开始,我们或许将见证信息执行的民主化-- 不再需要懂 SQL 也能批量管理任务, 不再需要会写脚本也能自动化工作流, 不再需要在 20 个标签间来回跳转才能完成一件“简单”的小事。
Atlas 不是多了一个聊天机器人,而是把浏览器变成了会思考、能记忆、敢行动的私人数字助理。 它可能还不完美,但它已经让我们窥见: 当 AI 成为基础设施,互联网的下一代入口会长成什么样。
现在,打开 Atlas,说一句: “帮我读完这篇文章并写个摘要发推特。” 然后,看着它替你完成一切-- 欢迎来到 AI Native 的互联网。
下载地址:chatgpt.com/atlas
留言区:如果 Atlas 明天就支持中文,你最想让它帮你完成什么“离谱”任务?
微信扫描下方的二维码阅读更多精彩内容

声明:本站所有文章,如无特殊说明或标注,均为橙市播客原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
