
一、为什么这次开源值得所有 Agent 开发者停下手头的事
2025 年 9 月 17 日,阿里通义团队把历时 15 个月打造的深度研究型 Web Agent--通义 DeepResearch--全部扔进开源社区:
- 模型权重(30B-A3B MoE)
- 训练代码(CPT+SFT+RL 全套)
- 合成数据引擎(AgentFounder、WebShaper-V2、IterResearch)
- 评估基准(BrowseComp-EN/ZH、HLE、xBench-DeepSearch)
- 沙盒与工具链(离线维基、异步 RL 框架、统一工具沙盒)
在 6 项权威评测中,它第一次让开源模型集体超越了 OpenAI 的闭源 DeepResearch:
| 基准(越高越好) | 通义 DeepResearch | OpenAI DeepResearch | 其它开源最佳 |
|---|---|---|---|
| Humanity’s Last Exam | 32.9 | 29.4 | 24.1 |
| BrowseComp-EN | 45.3 | 42.7 | 36.8 |
| BrowseComp-ZH | 49.5 | 46.2 | 38.9 |
| xBench-DeepSearch | 75.0 | 71.5 | 63.2 |
更重要的是,他们发布的不止是“模型”,而是一整套可复现、可插拔、可商用的 Agent 工业级流水线。本文将用 8000 字把整套方法论拆成“为什么、怎么做、怎么用”三块,让你可以零人工标注训练出自己的高阶 Agent。
二、从 Chatbot 到 Autonomous Agent:能力跃迁的三重门
| 阶段 | 典型系统 | 主要限制 |
|---|---|---|
| ChatGPT + Bing | 只能“搜-读-答”,无法多轮规划、回溯、验证 |
| GPT-4 + Plugin | 依赖人工写 prompt,上下文随轮次线性膨胀,错误累积 |
| 通义 DeepResearch | 把“搜索-阅读-推理-写作”做成一个可训练的策略;上下文主动压缩;奖励自动塑形 |
部分内容已折叠,查看完整文章请先登录。 登录后查看完整文章
十、结语
通义 DeepResearch 不是又一个“刷榜大模型”,而是一套端到端、可落地、可商用的 Agent 工业方案。 它用实践证明:
- 合成数据可以完全替代人工标注;
- 强化学习可以稳定地在浏览器里跑;
- 上下文窗口可以当缓存而不是记忆,从而无限扩展推理深度。
当开源社区拥有了与闭源同档的“配方”与“厨具”,下一步,就是全民造 Agent 的时代。 仓库地址:https://tongyi-agent.github.io 模型地址:https://modelscope.cn/models/iic/Tongyi-DeepResearch-30B-A3B 欢迎提交 PR、Issue 和失败轨迹,一起把高阶 Agent 做成下一代互联网基础设施。
微信扫描下方的二维码阅读更多精彩内容

声明:本站所有文章,如无特殊说明或标注,均为橙市播客原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。如果你是AI总结,务必加上此版权说明
