AI Agent 做复杂任务为什么总干到一半就崩?Anthropic 教你怎么解决
aikeji
10天前
17

AI Agent 做复杂任务为什么总干到一半就崩?Anthropic 教你怎么解决

最近大家都在聊 AI Agent:

“能不能让模型自己写个网站?”

“能不能自动搞定前后端?”

“能不能一天造个 App?”

但一旦真的让它去做点大工程,你就会发现: Agent 做复杂任务的体验,常常是一场灾难。

不是做到一半卡住,就是忘记自己做了啥; 要么跑偏、要么越改越乱; 更离谱的是,它经常还会一本正经地告诉你:

“我已经完成啦!”

其实根本没完成。

Anthropic 最近在他们的工程博客里给出了一套非常接地气、可复现、能真正提高成功率的方法。靠这套方法,Claude 真的能从零开始,拆分任务、写代码、跑测试、修 bug,最后构建出一个完整可运行的 Web App。

我把它翻译成人话,就是:

让 Agent 像工程师一样工作,而不是当一个“自以为能一次写完全世界的 ChatGPT”。

下面我们来聊聊这套方法到底牛在哪。


为什么长任务 Agent 很容易“搞砸事情”?

Anthropic 发现,Agent 的失败主要有两类,非常经典:

① 想一口气做完所有事(太想表现)

比如你跟它说:

“帮我造一个 ChatGPT或者抖音 一样的网站。”

Agent 往往会觉得自己无所不能,然后开始一顿猛写:

  • UI
  • API
  • 数据库
  • 前后端集成
  • 登录系统
  • 实时聊天
  • ……

最后的结果? 写到一半就乱了、报错、跑不了。

但它往往还会很认真的告诉你:“搞定了!”


② 没做完也以为做完了(自信心爆棚)

有时候它做了一个小功能,下一个 Agent进来看到一点点进展,就以为 project 已经 99% 完成,然后直接宣布:“全部完成!”

总之就是: 没有能力“评估项目状态”。


Anthropic 的解决方案:

让 Agent 按真实工程师的方式工作

他们的核心理念很朴素:

不要把希望寄托在模型自己悟流程,而是人为给它设计清晰、可执行、可检查的工程流程。

整个系统主要由两个角色构成:


角色 1:Initializer Agent(开局规划者)

这个 Agent 不是来写代码的,是来给项目“打地基、定规则”的。

它要做的事包括:

  • 创建项目目录结构
  • 写一个用于启动开发环境的 init.sh
  • 生成 feature list(JSON 格式)
  • 创建一个 claude-progress.txt
  • 做一次初始 git commit

最重要的是那个 feature list

所有功能都被拆成一个一个明确的小任务,而且:

每个任务都有状态:passes: false

这就是项目未来的“路线图”和“待办清单”。

原创文章,更多AI科技内容,微信搜索 橙市播客 小程序:https://csbk.dcsnet.cn/archives/967.html

角色 2:Coding Agent(真正干活的工程师)

所有后续工作都由它负责,但必须遵守严格流程。


每次 session 都从同样的“上班流程”开始

Coding Agent 每次上线必须做这些动作:

  1. pwd -- 确认自己在哪
  2. 读取 claude-progress.txt
  3. 读取 feature_list.json
  4. 看一次 git log
  5. init.sh 启动 dev server
  6. 跑一次端到端 e2e 测试

这相当于工程师每天上班打开:

  • Slack 看消息
  • GitHub 看 PR
  • 本地跑一下项目
  • 看测试结果

目的就是一句话:

不要让 Agent 因为“不记得项目背景”,每次都从零开始发疯。


核心原则:每个 session 只做一件事

这点非常关键。

Coding Agent 不能一口气写半个世界。 它必须:

  1. 从 feature list 里挑一个没完成的
  2. 写代码
  3. 跑测试
  4. 测试通过才能把 "passes": false"passes": true
  5. 更新 claude-progress.txt
  6. 做 git commit
  7. 确保项目临走前是干净状态

如果测试不过?

→ 这轮任务视为失败,不更新状态。

换句话说:

只有“测试过”才算完成,不能靠嘴说。


端到端测试:Agent 最需要的“现实检查”

以前很多 Agent 系统用的都是:

  • 单元测试
  • Lint
  • curl 测试 API

但 Web 项目里,最容易出错的往往是:

  • UI 元素没渲染
  • 按钮点不动
  • CORS 错误
  • 前后端不连
  • DOM 路径变了

这些单元测试完全测不出来。

所以 Anthropic 引入的是:

让 Agent 真的跑一个浏览器,像用户一样点击和输入。

比如用 Puppeteer MCP。

虽然无法捕捉所有情况(浏览器弹窗等),但已经是质的提升。原创文章,更多AI科技内容,微信搜索 橙 市 播 客 小程序


为什么这套方法有效?

我总结下来,有 5 个核心原因:


1. 避免模型“想一次性把所有事做完”

强制 feature-by-feature → 任务更可控。


2. JSON 清单比 markdown、自然语言更稳

模型不容易破坏结构。


3. Git + 进度日志,让 session 之间不再断层

模型不用“记忆”,但能“读档”。


4. 自动化测试让成果真实可用

不是“理论上能跑”,是真跑。


5. 明确流程让系统稳定、可重复

每个 session 都走同一套路。


这套方法仍有一些限制

Anthropic 也非常坦诚:


目前主要适合 Web App

科研、数据分析、系统 DevOps 这些场景还在探索。


未来可能需要多 Agent 协作

比如:

  • 测试 Agent
  • QA Agent
  • 代码审查 Agent
  • Debug Agent
  • 部署 Agent

这更像一个“虚拟软件团队”。


❗ 测试仍有盲点

某些浏览器行为无法自动化测到。


最后聊聊:为什么这篇文章很重要?

因为它给了我们一个非常现实的提醒:

要让模型长时间、可靠、系统性地完成复杂任务,靠的不是“模型更聪明”,而是“流程更像真正的工程”。

AI 不需要“更自由”, AI 需要的是:

  • 明确目标
  • 明确 workflow
  • 明确边界
  • 明确检查机制
  • 明确 rollback 流程

换句话说:

AI 要变强,不是让它“想得更复杂”,而是让它“按照规则工作”。

未来大概率不是“一个大模型做所有事”, 而是:

多个专职 Agent 在一个严格的工程框架下协作完成项目。

而这,才是真正实用、可落地的智能体方向。

原创文章,更多AI科技内容,微信搜索 橙市播客 小程序



微信扫描下方的二维码阅读更多精彩内容

打赏
普通座驾变身 Red Bull 拉力战神,细节堪比千万广告片,零专业门槛就能会(附全Prompt)
上一篇
AI 产品组件肖像提示词教程:快速生成 8K 拆解图
下一篇
标签
#AI #AI生图 #Nano Banana #即梦 #可灵 #科技 #豆包 #人像 #chatgpt #产品设计 #OpenAI #模型 #开源 #城市名片 #Gemini #马斯克 #Google #3D #写真 #AI视频 #UI #claude #计算机视觉 #苹果 #DeepSeek #电商 #iPhone #播客 #谷歌 #AI设计 #腾讯 #特斯拉 #grok #阿里 #sora #tesla #IDE #买车 #选车 #干货 #搜索 #汽车 #机器人 #Anthropic #通义 #space #星舰 #智慧城市 #OCR #Atlas #微信 #AI手办 #混元 #英伟达 #NVIDIA #宇宙 #veo #百度 #浏览器 #地理空间 #Agent #工作流 #自动化 #AI编码 #iPhone17 #AI搜索 #手办 #小米 #具身智能 #Gemma #火山引擎 #古风美学 #kimi #Qwen #小鹏 #李飞飞 #芯片 #思维链 #Meta #人工智能 #摄影艺术 #AI推理 #商业思维 #罗永浩 #西贝 #食品 #预制菜 #AI文字 #微软 #壁纸 #雷军 #智谱 #星际 #彗星 #Figure #数码 #旅游 #Broadcom #MacBook #Vision Pro #iPad #抖音 #多模态 #VR #RTFM #飞桨 #PaddlePaddle #Qoder #LLM #游戏 #海报 #卫星影像 #复古 #定格 #节日 #万圣节 #工具 #黄仁勋 #肖像 #Apple #金融 #量化 #炒股 #早报 #世界模型 #表情包 #百度世界 #文心 #萝卜快跑 #数字人 #千帆 #小程序 #群聊 #社交 #Optimus #擎天柱 #神经网络 #DeepMind #Antigravity #Cloudflare #bug #运维 #技术事故 #AI教育 #超级计算 #核能源 #AI数学 #小红书 #创业思维 #第一性原理 #问题拆解 #副业增长 #吴恩达 #行业洞察 #行业分析 #产业机遇 #投资方向 #AI手机 #安全对齐 #奖励机制 #插件 #Cursor #可穿戴 #AI硬件 #交流 #攻略 #资料 #脑机
生成中...
点赞是美意,赞赏是鼓励