为什么你的Agent 做复杂任务总是半途而废?Anthropic 给出了最靠谱的答案
aikeji
11-27
107

随着 Claude、GPT 等大型模型不断变强,“AI Agent 能不能自己做一个完整应用?”正在成为开发者讨论的核心话题。许多团队尝试用 Agent 自动构建网站、写 App、跑脚本,甚至维护复杂系统。然而,只要任务稍微复杂一点,Agent 的表现往往让人失望:做到一半就卡住、忘记之前做过什么、自我宣告完成、或者越做越乱

为什么会这样? Anthropic 在11月27日发布了一篇博客《Effective Harnesses for Long-Running Agents》,给出了一个关键结论:

问题不在模型能力,而在我们没有给 Agent 设计“像工程师一样工作的结构化流程”。

这篇文章提出了一套可复现的“工程式 Harness(约束/框架)”,能让 Agent 可靠地执行 多轮、多天、跨 session 的复杂任务。Anthropic 用它让 Claude 构建了一个可运行、可测试、端到端完整的 Web 应用。


长任务 Agent 为什么失败?

在 Anthropic 的大量实验中,长任务 Agent 常见两大失败模式:

1. 一次性尝试做太多(One-shot Overreach)

给模型一句话:

部分内容已折叠,查看完整文章请先登录。 登录后查看完整文章

未来的主流 AI 工作方式,极可能不是“让大模型从头写个项目”,而是:

“用结构化、可审查、可测试、可衔接的 workflow,引导 Agent 逐步构建完整系统。”

这才是让 Agent 真正落地、可控、可维护的关键。

原创文章,更多AI科技内容,微信搜索橙 市 播 客 小程序



微信扫描下方的二维码阅读更多精彩内容

打赏
AI 产品组件肖像提示词教程:快速生成 8K 拆解图
上一篇
DeepSeek-Math-V2:让 AI 第一次学会“自证其理”的数学模型
下一篇
生成中...
点赞是美意,赞赏是鼓励