
一、为什么这次开源值得所有 Agent 开发者停下手头的事
2025 年 9 月 17 日,阿里通义团队把历时 15 个月打造的深度研究型 Web Agent--通义 DeepResearch--全部扔进开源社区:
- 模型权重(30B-A3B MoE)
- 训练代码(CPT+SFT+RL 全套)
- 合成数据引擎(AgentFounder、WebShaper-V2、IterResearch)
- 评估基准(BrowseComp-EN/ZH、HLE、xBench-DeepSearch)
- 沙盒与工具链(离线维基、异步 RL 框架、统一工具沙盒)
在 6 项权威评测中,它第一次让开源模型集体超越了 OpenAI 的闭源 DeepResearch:
| 基准(越高越好) | 通义 DeepResearch | OpenAI DeepResearch | 其它开源最佳 |
|---|---|---|---|
| Humanity’s Last Exam | 32.9 | 29.4 | 24.1 |
| BrowseComp-EN | 45.3 | 42.7 | 36.8 |
| BrowseComp-ZH | 49.5 | 46.2 | 38.9 |
| xBench-DeepSearch | 75.0 | 71.5 | 63.2 |
更重要的是,他们发布的不止是“模型”,而是一整套可复现、可插拔、可商用的 Agent 工业级流水线。本文将用 8000 字把整套方法论拆成“为什么、怎么做、怎么用”三块,让你可以零人工标注训练出自己的高阶 Agent。
二、从 Chatbot 到 Autonomous Agent:能力跃迁的三重门
| 阶段 | 典型系统 | 主要限制 |
|---|---|---|
| ChatGPT + Bing | 只能“搜-读-答”,无法多轮规划、回溯、验证 |
| GPT-4 + Plugin | 依赖人工写 prompt,上下文随轮次线性膨胀,错误累积 |
| 通义 DeepResearch | 把“搜索-阅读-推理-写作”做成一个可训练的策略;上下文主动压缩;奖励自动塑形 |
通义团队认为,第三阶段的门槛不是模型大小,而是“数据×训练范式×部署框架”的系统工程。于是他们做了三件“反常识”的事:
- 不用任何人工标注,纯合成数据把 7B 基模推到 30B 闭源水平;
- 把强化学习搬进浏览器,让 Agent 在 10 万量级的离线网页上自我博弈;
- 把 128K 上下文当“缓存”而不是“记忆”,每轮只保留 2k 有效 tokens,解决“认知过载”。
三、数据工厂:如何零人工生成“博士级”研究问答
3.1 AgentFounder--让模型自己“生”训练数据
核心思想:用后训练阶段的高质量轨迹反过来喂给预训练,形成数据飞轮。 流水线四步:
① 知识萃取
- 输入:Common Crawl、维基、arXiv、知识图谱、工具调用日志
- 输出:以“实体”为节点的统一记忆图(Entity-Centric Memory Graph, ECMG)
② 问题工厂
- 在 ECMG 上随机游走,采样子图/子表 → 生成 QA 对
- 通过“原子操作”系统升级难度:实体合并、属性混淆、时间错位、数值缩放
- 难度公式: Complexity(Q) = Σ_i α_i·AtomicOp_i 其中 α_i 可手动权重,也可在 RL 里自动学
③ 动作合成
- 一阶动作:Click、Search、Scroll、Quote
- 高阶动作:Plan→Verify→Backtrack→Refine
- 用离线浏览器执行,记录完整轨迹,再逆向标注“动作-意图”对
④ 数据自清洗
- 用“集合论”形式化验证答案正确性:把问题拆成子集求交、并、补,检查是否能在子图里推出唯一解
- 过滤掉“推理捷径”样本(比如问题里直接出现答案关键词)
- 最终留下 1.2 亿条“搜索-推理-回答”三元组,成本仅为人工标注的 0.3%
3.2 WebShaper-V2--浏览器里直接“雕刻”难题
传统合成数据常见毛病:
- 信息结构与现实网页不一致 → 模型上线后“水土不服”;
- 推理链太短 → 学会“抄答案”而不是“真搜索”。
WebShaper 把网页 DOM 树转成超图,在超图上做“边删除、节点融合”操作,可控地增加:
- 信息碎片化(必须跨 3-4 个页面拼答案)
- 时间错位(必须对比 2019 与 2023 两版文档)
- 多模态陷阱(表格里单位是“万吨”,正文是“亿吨”)
再让 Agent 在离线镜像里跑 100 次,只保留“首次成功率 < 30%” 的问题,难度直接拉满。
3.3 IterResearch--把“解题过程”变成数据
过去做法:一次性给 128K 上下文,让模型写 10 页报告。 问题:中间走错一步,后面全崩;且无法回溯。
IterResearch 把任务拆成 n 轮“研究-合成”小循环:
- 每轮只保留上一轮的“核心报告”(≤ 2k tokens);
- 用当前报告生成下一批搜索 query;
- 把新片段拼接成更新版报告;
- 重复直到满足停止条件。
好处
- 错误可局部回滚;
- 上下文长度恒定,与轮次无关;
- 天然产生“如何写报告”的黄金轨迹,可直接当 SFT 数据。
通义团队用 5 万个种子问题跑了 200 万轮 IterResearch,自动筛出 80 万条“高质量报告演进”序列,成为 RL 阶段最大的奖励“教师”。
四、训练配方:Agentic CPT → SFT → RL 三连跳
4.1 Agentic CPT--先让基模“会用工具”
- 数据:1.2 亿合成轨迹
- 目标:继续预训练 1T tokens,让 7B 模型学会“搜索-引用-比较”的语言模式
- 技巧:
- 把 HTML 片段、JSON 结果、工具 API 返回都当成“外语”一起预训练;
- 采用“Span Corruption”方式,随机遮住搜索结果段落,让模型学会“猜”缺失信息,从而内化知识图谱结构。
结果:在 BrowseComp 零样本基准从 9.8 → 23.4,直接翻倍。
4.2 SFT 冷启动--教模型“按格式”写答案
- 数据:80 万 IterResearch 轨迹 + 20 万人工精选(只占 0.025%)
- 模板:
Thought: … Action: Search["xxx"] Observation: … (循环) Final Answer: {结构化报告,含引用序号} - 训练:3 epoch,lr 2e-5,全局 batch 512,序列长度 32K
4.3 GRPO 强化学习--让模型“自我进化”
算法亮点
- 组相对策略优化(GRPO):每批采样 G=16 条轨迹,用组内排名做 baseline,无需 Critic 网络,节省 30% 显存;
- Token 级策略梯度:奖励信号可以细到每个引用是否正确,避免“全对全错”稀疏奖励;
- 负样本保守策略:把“因超时而失败”的轨迹从 loss 中 mask 掉,防止模型崩溃到“什么都不做”;
- 异步采样:在 rLLM 框架上实现 step-level 异步,8 张 A100 每天可跑 2.4 万条轨迹,训练效率提升 5.7 倍。
奖励函数 R = 0.4·Answer_Acc + 0.3·Citation_F1 + 0.2·Token_Efficiency + 0.1·Format_Reward
训练曲线
- 奖励 10 万步内从 0.31 → 0.68,无明显平台;
- 策略熵维持在 1.8 nats,表明模型仍在探索,未过拟合;
- 在 BrowseComp 测试集首次突破 40 分,超过 GPT-4 的 37.2。
五、部署框架:ReAct 与深度模式双引擎
5.1 ReAct 模式--“傻瓜”也能用
- 零提示工程,直接问“请帮我调研 2025 年诺贝尔化学奖热门人选”
- 模型自动循环:思考 → 搜索 → 观察 → 再思考 …
- 128K 上下文支持 50+ 轮交互,平均耗时 1.8 分钟完成 10 页报告
5.2 深度模式--复杂任务“榨干”模型上限
- 多 Agent 并行:对同一问题启动 k=4 个独立 IterResearch 实例;
- 报告融合:用“互评-投票-合并”机制把 4 份中期报告合成终稿;
- 上下文压缩:每轮只传 2k 核心报告,剩余 126k 用于实时搜索,推理长度可扩展到 500+ 轮而无 OOM;
- 在 HLE 基准上,单 Agent 得 29.1,四 Agent 融合后得 32.9,提升 3.8 分,证明“研究-合成”框架有效。
六、基础设施:让 RL 在浏览器里稳定跑 10 万步
| 模块 | 传统痛点 | 通义方案 |
|---|---|---|
| 搜索 API | 限速、贵、结果随机 | 离线维基镜像 + 搜索引擎 mock,固定 Top20 结果,确定性 100% |
| 工具沙盒 | 网络波动导致轨迹中断 | 统一封装:失败自动重试、并发锁、多 API 冗余 |
| 数据管理 | 数据一成不变,模型很快过拟合 | 训练-生成闭环:每 2 小时根据最新策略重新生成 5% 数据,淘汰低奖励样本 |
| 奖励计算 | 人工写规则,成本高 | 全部自动化:答案正确性用集合论验证,引用用字符串匹配+F1,效率 1 万条/秒 |
七、实验结果:不止刷榜,还能商用
-
公开榜单 已列于表一,全面超越 OpenAI 与开源最佳。
-
消融实验
- 去掉 IterResearch → 下降 4.6 分
- 去掉 CPT → 下降 6.1 分
- 用人工标注数据替换 50% 合成数据 → 下降 2.9 分,证明“合成 > 人工”在本场景成立
- 商用场景内测
- 金融研报:30 分钟生成 40 页行业深度,分析师只需校对;
- 医药合规:自动检索 FDA/EMA 公文,生成药物警戒报告,人工审核时间从 3 天缩到 2 小时;
- 政府舆情:把 200 条政策文件整合成 1 篇千字解读,准确率 92%,超过外包团队 8 个百分点。
八、如何快速复现自己的 DeepResearch
8.1 最小可运行版本(消费级 24G 显存)
- 下载量化模型:
huggingface-cli download iic/Tongyi-DeepResearch-30B-GPTQ - 启动沙盒:
docker run -p 8080:8080 tongyi/agent-sandbox - 运行示例:
from tongyi_agent import Agent agent = Agent(model="Tongyi-DeepResearch-30B-GPTQ", sandbox="http://localhost:8080") report = agent.run("调研 2025 年量子计算最新进展") print(report.final_markdown)
8.2 全量训练版本(8×A100 80G)
- 数据:
- 已开源 1.2 亿 CPT 语料、80 万 SFT 轨迹、RL 奖励脚本
- 代码:
git clone https://github.com/tongyi-agent/tongyi-deepresearch- 提供 Slurm + Docker 一键训练脚本,3 天可复现 30B 模型
- 协议:
- 模型权重 Apache 2.0,商用无限制;
- 数据集中 0.2% 含维基原始文本,已按 CC-SA 3.0 注明来源,可放心商用。
九、未来路线图
- 2025 Q4:发布 70B 多模态版,支持读图、读表、读公式
- 2026 Q1:把 IterResearch 做成异步服务,开放 API,每 1000 tokens 0.002 美元
- 2026 Q2:联合魔搭社区推出“Agent 数据众包”计划,让用户提交“失败轨迹”,自动转成训练数据,形成更大飞轮
十、结语
通义 DeepResearch 不是又一个“刷榜大模型”,而是一套端到端、可落地、可商用的 Agent 工业方案。 它用实践证明:
- 合成数据可以完全替代人工标注;
- 强化学习可以稳定地在浏览器里跑;
- 上下文窗口可以当缓存而不是记忆,从而无限扩展推理深度。
当开源社区拥有了与闭源同档的“配方”与“厨具”,下一步,就是全民造 Agent 的时代。 仓库地址:https://tongyi-agent.github.io 模型地址:https://modelscope.cn/models/iic/Tongyi-DeepResearch-30B-A3B 欢迎提交 PR、Issue 和失败轨迹,一起把高阶 Agent 做成下一代互联网基础设施。
微信扫描下方的二维码阅读更多精彩内容

声明:本站所有文章,如无特殊说明或标注,均为橙市播客原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
