
最近大家都在聊 AI Agent:
“能不能让模型自己写个网站?”
“能不能自动搞定前后端?”
“能不能一天造个 App?”
但一旦真的让它去做点大工程,你就会发现: Agent 做复杂任务的体验,常常是一场灾难。
不是做到一半卡住,就是忘记自己做了啥; 要么跑偏、要么越改越乱; 更离谱的是,它经常还会一本正经地告诉你:
“我已经完成啦!”
其实根本没完成。
Anthropic 最近在他们的工程博客里给出了一套非常接地气、可复现、能真正提高成功率的方法。靠这套方法,Claude 真的能从零开始,拆分任务、写代码、跑测试、修 bug,最后构建出一个完整可运行的 Web App。
我把它翻译成人话,就是:
让 Agent 像工程师一样工作,而不是当一个“自以为能一次写完全世界的 ChatGPT”。
下面我们来聊聊这套方法到底牛在哪。
为什么长任务 Agent 很容易“搞砸事情”?
Anthropic 发现,Agent 的失败主要有两类,非常经典:
① 想一口气做完所有事(太想表现)
比如你跟它说:
“帮我造一个 ChatGPT或者抖音 一样的网站。”
Agent 往往会觉得自己无所不能,然后开始一顿猛写:
- UI
- API
- 数据库
- 前后端集成
- 登录系统
- 实时聊天
- ……
最后的结果? 写到一半就乱了、报错、跑不了。
但它往往还会很认真的告诉你:“搞定了!”
② 没做完也以为做完了(自信心爆棚)
有时候它做了一个小功能,下一个 Agent进来看到一点点进展,就以为 project 已经 99% 完成,然后直接宣布:“全部完成!”
总之就是: 没有能力“评估项目状态”。
Anthropic 的解决方案:
让 Agent 按真实工程师的方式工作
他们的核心理念很朴素:
不要把希望寄托在模型自己悟流程,而是人为给它设计清晰、可执行、可检查的工程流程。
整个系统主要由两个角色构成:
角色 1:Initializer Agent(开局规划者)
这个 Agent 不是来写代码的,是来给项目“打地基、定规则”的。
它要做的事包括:
- 创建项目目录结构
- 写一个用于启动开发环境的
init.sh - 生成 feature list(JSON 格式)
- 创建一个
claude-progress.txt - 做一次初始 git commit
最重要的是那个 feature list。
所有功能都被拆成一个一个明确的小任务,而且:
每个任务都有状态:passes: false
这就是项目未来的“路线图”和“待办清单”。
原创文章,更多AI科技内容,微信搜索 橙市播客 小程序:https://csbk.dcsnet.cn/archives/967.html
角色 2:Coding Agent(真正干活的工程师)
所有后续工作都由它负责,但必须遵守严格流程。
每次 session 都从同样的“上班流程”开始
Coding Agent 每次上线必须做这些动作:
pwd-- 确认自己在哪- 读取
claude-progress.txt - 读取
feature_list.json - 看一次 git log
- 跑
init.sh启动 dev server - 跑一次端到端 e2e 测试
这相当于工程师每天上班打开:
- Slack 看消息
- GitHub 看 PR
- 本地跑一下项目
- 看测试结果
目的就是一句话:
不要让 Agent 因为“不记得项目背景”,每次都从零开始发疯。
核心原则:每个 session 只做一件事
这点非常关键。
Coding Agent 不能一口气写半个世界。 它必须:
- 从 feature list 里挑一个没完成的
- 写代码
- 跑测试
- 测试通过才能把
"passes": false→"passes": true - 更新
claude-progress.txt - 做 git commit
- 确保项目临走前是干净状态
如果测试不过?
→ 这轮任务视为失败,不更新状态。
换句话说:
只有“测试过”才算完成,不能靠嘴说。
端到端测试:Agent 最需要的“现实检查”
以前很多 Agent 系统用的都是:
- 单元测试
- Lint
- curl 测试 API
但 Web 项目里,最容易出错的往往是:
- UI 元素没渲染
- 按钮点不动
- CORS 错误
- 前后端不连
- DOM 路径变了
这些单元测试完全测不出来。
所以 Anthropic 引入的是:
让 Agent 真的跑一个浏览器,像用户一样点击和输入。
比如用 Puppeteer MCP。
虽然无法捕捉所有情况(浏览器弹窗等),但已经是质的提升。原创文章,更多AI科技内容,微信搜索 橙 市 播 客 小程序
为什么这套方法有效?
我总结下来,有 5 个核心原因:
1. 避免模型“想一次性把所有事做完”
强制 feature-by-feature → 任务更可控。
2. JSON 清单比 markdown、自然语言更稳
模型不容易破坏结构。
3. Git + 进度日志,让 session 之间不再断层
模型不用“记忆”,但能“读档”。
4. 自动化测试让成果真实可用
不是“理论上能跑”,是真跑。
5. 明确流程让系统稳定、可重复
每个 session 都走同一套路。
这套方法仍有一些限制
Anthropic 也非常坦诚:
目前主要适合 Web App
科研、数据分析、系统 DevOps 这些场景还在探索。
未来可能需要多 Agent 协作
比如:
- 测试 Agent
- QA Agent
- 代码审查 Agent
- Debug Agent
- 部署 Agent
这更像一个“虚拟软件团队”。
❗ 测试仍有盲点
某些浏览器行为无法自动化测到。
最后聊聊:为什么这篇文章很重要?
因为它给了我们一个非常现实的提醒:
要让模型长时间、可靠、系统性地完成复杂任务,靠的不是“模型更聪明”,而是“流程更像真正的工程”。
AI 不需要“更自由”, AI 需要的是:
- 明确目标
- 明确 workflow
- 明确边界
- 明确检查机制
- 明确 rollback 流程
换句话说:
AI 要变强,不是让它“想得更复杂”,而是让它“按照规则工作”。
未来大概率不是“一个大模型做所有事”, 而是:
多个专职 Agent 在一个严格的工程框架下协作完成项目。
而这,才是真正实用、可落地的智能体方向。
原创文章,更多AI科技内容,微信搜索 橙市播客 小程序
微信扫描下方的二维码阅读更多精彩内容

声明:本站所有文章,如无特殊说明或标注,均为橙市播客原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
