通义 DeepResearch 全栈开源:一个可复现、可落地的高阶 Web Agent 新范式
一个老翁
09-18
75

通义 DeepResearch 全栈开源:一个可复现、可落地的高阶 Web Agent 新范式

一、为什么这次开源值得所有 Agent 开发者停下手头的事

2025 年 9 月 17 日,阿里通义团队把历时 15 个月打造的深度研究型 Web Agent--通义 DeepResearch--全部扔进开源社区:

  • 模型权重(30B-A3B MoE)
  • 训练代码(CPT+SFT+RL 全套)
  • 合成数据引擎(AgentFounder、WebShaper-V2、IterResearch)
  • 评估基准(BrowseComp-EN/ZH、HLE、xBench-DeepSearch)
  • 沙盒与工具链(离线维基、异步 RL 框架、统一工具沙盒)

在 6 项权威评测中,它第一次让开源模型集体超越了 OpenAI 的闭源 DeepResearch:

基准(越高越好)通义 DeepResearchOpenAI DeepResearch其它开源最佳
Humanity’s Last Exam32.929.424.1
BrowseComp-EN45.342.736.8
BrowseComp-ZH49.546.238.9
xBench-DeepSearch75.071.563.2

更重要的是,他们发布的不止是“模型”,而是一整套可复现、可插拔、可商用的 Agent 工业级流水线。本文将用 8000 字把整套方法论拆成“为什么、怎么做、怎么用”三块,让你可以零人工标注训练出自己的高阶 Agent。


二、从 Chatbot 到 Autonomous Agent:能力跃迁的三重门

阶段典型系统主要限制
  1. 对话式检索
ChatGPT + Bing只能“搜-读-答”,无法多轮规划、回溯、验证
  1. 工具链调用
GPT-4 + Plugin依赖人工写 prompt,上下文随轮次线性膨胀,错误累积
  1. 自主研究 Agent
通义 DeepResearch把“搜索-阅读-推理-写作”做成一个可训练的策略;上下文主动压缩;奖励自动塑形

通义团队认为,第三阶段的门槛不是模型大小,而是“数据×训练范式×部署框架”的系统工程。于是他们做了三件“反常识”的事:

  1. 不用任何人工标注,纯合成数据把 7B 基模推到 30B 闭源水平;
  2. 把强化学习搬进浏览器,让 Agent 在 10 万量级的离线网页上自我博弈;
  3. 把 128K 上下文当“缓存”而不是“记忆”,每轮只保留 2k 有效 tokens,解决“认知过载”。

三、数据工厂:如何零人工生成“博士级”研究问答

3.1 AgentFounder--让模型自己“生”训练数据

核心思想:用后训练阶段的高质量轨迹反过来喂给预训练,形成数据飞轮。 流水线四步:

知识萃取

  • 输入:Common Crawl、维基、arXiv、知识图谱、工具调用日志
  • 输出:以“实体”为节点的统一记忆图(Entity-Centric Memory Graph, ECMG)

问题工厂

  • 在 ECMG 上随机游走,采样子图/子表 → 生成 QA 对
  • 通过“原子操作”系统升级难度:实体合并、属性混淆、时间错位、数值缩放
  • 难度公式: Complexity(Q) = Σ_i α_i·AtomicOp_i 其中 α_i 可手动权重,也可在 RL 里自动学

动作合成

  • 一阶动作:Click、Search、Scroll、Quote
  • 高阶动作:Plan→Verify→Backtrack→Refine
  • 用离线浏览器执行,记录完整轨迹,再逆向标注“动作-意图”对

数据自清洗

  • 用“集合论”形式化验证答案正确性:把问题拆成子集求交、并、补,检查是否能在子图里推出唯一解
  • 过滤掉“推理捷径”样本(比如问题里直接出现答案关键词)
  • 最终留下 1.2 亿条“搜索-推理-回答”三元组,成本仅为人工标注的 0.3%

3.2 WebShaper-V2--浏览器里直接“雕刻”难题

传统合成数据常见毛病:

  • 信息结构与现实网页不一致 → 模型上线后“水土不服”;
  • 推理链太短 → 学会“抄答案”而不是“真搜索”。

WebShaper 把网页 DOM 树转成超图,在超图上做“边删除、节点融合”操作,可控地增加:

  • 信息碎片化(必须跨 3-4 个页面拼答案)
  • 时间错位(必须对比 2019 与 2023 两版文档)
  • 多模态陷阱(表格里单位是“万吨”,正文是“亿吨”)

再让 Agent 在离线镜像里跑 100 次,只保留“首次成功率 < 30%” 的问题,难度直接拉满。

3.3 IterResearch--把“解题过程”变成数据

过去做法:一次性给 128K 上下文,让模型写 10 页报告。 问题:中间走错一步,后面全崩;且无法回溯。

IterResearch 把任务拆成 n 轮“研究-合成”小循环:

  1. 每轮只保留上一轮的“核心报告”(≤ 2k tokens);
  2. 用当前报告生成下一批搜索 query;
  3. 把新片段拼接成更新版报告;
  4. 重复直到满足停止条件。

好处

  • 错误可局部回滚;
  • 上下文长度恒定,与轮次无关;
  • 天然产生“如何写报告”的黄金轨迹,可直接当 SFT 数据。

通义团队用 5 万个种子问题跑了 200 万轮 IterResearch,自动筛出 80 万条“高质量报告演进”序列,成为 RL 阶段最大的奖励“教师”。


四、训练配方:Agentic CPT → SFT → RL 三连跳

4.1 Agentic CPT--先让基模“会用工具”

  • 数据:1.2 亿合成轨迹
  • 目标:继续预训练 1T tokens,让 7B 模型学会“搜索-引用-比较”的语言模式
  • 技巧:
  • 把 HTML 片段、JSON 结果、工具 API 返回都当成“外语”一起预训练;
  • 采用“Span Corruption”方式,随机遮住搜索结果段落,让模型学会“猜”缺失信息,从而内化知识图谱结构。

结果:在 BrowseComp 零样本基准从 9.8 → 23.4,直接翻倍。

4.2 SFT 冷启动--教模型“按格式”写答案

  • 数据:80 万 IterResearch 轨迹 + 20 万人工精选(只占 0.025%)
  • 模板:
    Thought: …
    Action: Search["xxx"]
    Observation: …
    (循环)
    Final Answer: {结构化报告,含引用序号}
  • 训练:3 epoch,lr 2e-5,全局 batch 512,序列长度 32K

4.3 GRPO 强化学习--让模型“自我进化”

算法亮点

  • 组相对策略优化(GRPO):每批采样 G=16 条轨迹,用组内排名做 baseline,无需 Critic 网络,节省 30% 显存;
  • Token 级策略梯度:奖励信号可以细到每个引用是否正确,避免“全对全错”稀疏奖励;
  • 负样本保守策略:把“因超时而失败”的轨迹从 loss 中 mask 掉,防止模型崩溃到“什么都不做”;
  • 异步采样:在 rLLM 框架上实现 step-level 异步,8 张 A100 每天可跑 2.4 万条轨迹,训练效率提升 5.7 倍。

奖励函数 R = 0.4·Answer_Acc + 0.3·Citation_F1 + 0.2·Token_Efficiency + 0.1·Format_Reward

训练曲线

  • 奖励 10 万步内从 0.31 → 0.68,无明显平台;
  • 策略熵维持在 1.8 nats,表明模型仍在探索,未过拟合;
  • 在 BrowseComp 测试集首次突破 40 分,超过 GPT-4 的 37.2。

五、部署框架:ReAct 与深度模式双引擎

5.1 ReAct 模式--“傻瓜”也能用

  • 零提示工程,直接问“请帮我调研 2025 年诺贝尔化学奖热门人选”
  • 模型自动循环:思考 → 搜索 → 观察 → 再思考 …
  • 128K 上下文支持 50+ 轮交互,平均耗时 1.8 分钟完成 10 页报告

5.2 深度模式--复杂任务“榨干”模型上限

  • 多 Agent 并行:对同一问题启动 k=4 个独立 IterResearch 实例;
  • 报告融合:用“互评-投票-合并”机制把 4 份中期报告合成终稿;
  • 上下文压缩:每轮只传 2k 核心报告,剩余 126k 用于实时搜索,推理长度可扩展到 500+ 轮而无 OOM;
  • 在 HLE 基准上,单 Agent 得 29.1,四 Agent 融合后得 32.9,提升 3.8 分,证明“研究-合成”框架有效。

六、基础设施:让 RL 在浏览器里稳定跑 10 万步

模块传统痛点通义方案
搜索 API限速、贵、结果随机离线维基镜像 + 搜索引擎 mock,固定 Top20 结果,确定性 100%
工具沙盒网络波动导致轨迹中断统一封装:失败自动重试、并发锁、多 API 冗余
数据管理数据一成不变,模型很快过拟合训练-生成闭环:每 2 小时根据最新策略重新生成 5% 数据,淘汰低奖励样本
奖励计算人工写规则,成本高全部自动化:答案正确性用集合论验证,引用用字符串匹配+F1,效率 1 万条/秒

七、实验结果:不止刷榜,还能商用

  1. 公开榜单 已列于表一,全面超越 OpenAI 与开源最佳。

  2. 消融实验

  • 去掉 IterResearch → 下降 4.6 分
  • 去掉 CPT → 下降 6.1 分
  • 用人工标注数据替换 50% 合成数据 → 下降 2.9 分,证明“合成 > 人工”在本场景成立
  1. 商用场景内测
  • 金融研报:30 分钟生成 40 页行业深度,分析师只需校对;
  • 医药合规:自动检索 FDA/EMA 公文,生成药物警戒报告,人工审核时间从 3 天缩到 2 小时;
  • 政府舆情:把 200 条政策文件整合成 1 篇千字解读,准确率 92%,超过外包团队 8 个百分点。

八、如何快速复现自己的 DeepResearch

8.1 最小可运行版本(消费级 24G 显存)

  1. 下载量化模型: huggingface-cli download iic/Tongyi-DeepResearch-30B-GPTQ
  2. 启动沙盒: docker run -p 8080:8080 tongyi/agent-sandbox
  3. 运行示例:
    from tongyi_agent import Agent
    agent = Agent(model="Tongyi-DeepResearch-30B-GPTQ", sandbox="http://localhost:8080")
    report = agent.run("调研 2025 年量子计算最新进展")
    print(report.final_markdown)

8.2 全量训练版本(8×A100 80G)

  1. 数据:
  • 已开源 1.2 亿 CPT 语料、80 万 SFT 轨迹、RL 奖励脚本
  1. 代码:
  • git clone https://github.com/tongyi-agent/tongyi-deepresearch
  • 提供 Slurm + Docker 一键训练脚本,3 天可复现 30B 模型
  1. 协议:
  • 模型权重 Apache 2.0,商用无限制;
  • 数据集中 0.2% 含维基原始文本,已按 CC-SA 3.0 注明来源,可放心商用。

九、未来路线图

  • 2025 Q4:发布 70B 多模态版,支持读图、读表、读公式
  • 2026 Q1:把 IterResearch 做成异步服务,开放 API,每 1000 tokens 0.002 美元
  • 2026 Q2:联合魔搭社区推出“Agent 数据众包”计划,让用户提交“失败轨迹”,自动转成训练数据,形成更大飞轮

十、结语

通义 DeepResearch 不是又一个“刷榜大模型”,而是一套端到端、可落地、可商用的 Agent 工业方案。 它用实践证明:

  • 合成数据可以完全替代人工标注;
  • 强化学习可以稳定地在浏览器里跑;
  • 上下文窗口可以当缓存而不是记忆,从而无限扩展推理深度。

当开源社区拥有了与闭源同档的“配方”与“厨具”,下一步,就是全民造 Agent 的时代。 仓库地址:https://tongyi-agent.github.io 模型地址:https://modelscope.cn/models/iic/Tongyi-DeepResearch-30B-A3B 欢迎提交 PR、Issue 和失败轨迹,一起把高阶 Agent 做成下一代互联网基础设施。



微信扫描下方的二维码阅读更多精彩内容

打赏
GPT-5 Codex 一夜爆火:4 条提示词,10 分钟做出可上线的前端项目
上一篇
巨型手办实物亮相提示词
下一篇
标签
#AI #AI生图 #Nano Banana #即梦 #可灵 #科技 #豆包 #人像 #chatgpt #产品设计 #OpenAI #模型 #开源 #城市名片 #Gemini #马斯克 #Google #3D #写真 #AI视频 #UI #claude #计算机视觉 #苹果 #DeepSeek #电商 #iPhone #播客 #谷歌 #AI设计 #腾讯 #特斯拉 #grok #阿里 #sora #tesla #IDE #买车 #选车 #干货 #搜索 #汽车 #机器人 #Anthropic #通义 #space #星舰 #智慧城市 #OCR #Atlas #微信 #AI手办 #混元 #英伟达 #NVIDIA #宇宙 #veo #百度 #浏览器 #地理空间 #Agent #工作流 #自动化 #AI编码 #iPhone17 #AI搜索 #手办 #小米 #具身智能 #Gemma #火山引擎 #古风美学 #kimi #Qwen #小鹏 #李飞飞 #芯片 #思维链 #Meta #人工智能 #摄影艺术 #AI推理 #商业思维 #罗永浩 #西贝 #食品 #预制菜 #AI文字 #微软 #壁纸 #雷军 #智谱 #星际 #彗星 #Figure #数码 #旅游 #Broadcom #MacBook #Vision Pro #iPad #抖音 #多模态 #VR #RTFM #飞桨 #PaddlePaddle #Qoder #LLM #游戏 #海报 #卫星影像 #复古 #定格 #节日 #万圣节 #工具 #黄仁勋 #肖像 #Apple #金融 #量化 #炒股 #早报 #世界模型 #表情包 #百度世界 #文心 #萝卜快跑 #数字人 #千帆 #小程序 #群聊 #社交 #Optimus #擎天柱 #神经网络 #DeepMind #Antigravity #Cloudflare #bug #运维 #技术事故 #AI教育 #超级计算 #核能源 #AI数学 #小红书 #创业思维 #第一性原理 #问题拆解 #副业增长 #吴恩达 #行业洞察 #行业分析 #产业机遇 #投资方向 #AI手机 #安全对齐 #奖励机制 #插件 #Cursor #可穿戴 #AI硬件 #交流 #攻略 #资料 #脑机
生成中...
点赞是美意,赞赏是鼓励