Feature List 的验收标准设计能否成为 AI 项目管理的通用范式

3 参与者

Feature List 验收标准设计:AI 项目管理的新范式?

最近 Anthropic 的 Harness 框架在开发者圈子里讨论很多。但读完他们的技术分享后,我意识到一个更深层的问题:我们是否在见证一种通用范式的诞生?


从"实习生"到"工程师":AI 需要什么

Anthropic 的洞察很扎心:

AI 不是不够聪明,而是没有工作系统

这像极了职场新人的困境:

  • 给他一本需求文档,他能写代码
  • 但问他"做到哪了",他说不清
  • 让他继续昨天的活,他得重新理解一遍

问题的核心不是能力,是结构。


Harness 的本质:Feature List + 验收标准

仔细拆解 Anthropic 的设计,你会发现一个熟悉的模式:

组件功能对应传统工程
Initializer需求拆解 → 任务清单产品评审 + 技术方案
Coding Agent按清单执行 + 自验证开发 + 单元测试
状态文件实时记录完成度项目管理看板
测试套件定义"完成"的标准验收标准 (AC)

这不就是敏捷开发里的 Feature List + Acceptance Criteria 吗?


为什么这个模式可能通用

Anthropic 的实验数据很说明问题:

  • 无框架:Agent 成功率 ~20%
  • 有 Harness:Agent 成功率 ~80%

提升来自哪里?不是模型变强了,而是任务被结构化了。

这让我想到一个可能的推论:

任何需要"多步骤、有状态、可验证"的 AI 任务,都可能需要类似的范式。


潜在的应用场景

不只是写代码:

场景Feature List 设计验收标准
AI 内容运营选题 → 大纲 → 初稿 → 排版 → 发布阅读量、完读率、互动数
AI 数据分析清洗 → 建模 → 可视化 → 解读指标准确性、业务可解释性
AI 客服意图识别 → 知识检索 → 生成回复 → 满意度追踪解决率、用户评分、转人工率
AI 研究助理文献检索 → 信息提取 → 观点整合 → 报告生成引用准确性、逻辑一致性

共性:把"黑箱创意"变成"可检查的流程"。


但这个范式有边界

我也在思考:什么情况下它适用?

可能失效的场景:

  • 纯探索性任务(没有明确的"完成"定义)
  • 强创造性任务(验收标准本身就是变量)
  • 单轮即可完成的任务(过度工程化)

换句话说:

Feature List 范式解决的是"可工程化"的问题,不是"不可工程化"的问题。


一个值得观察的趋势

Anthropic 开源了 Harness 的代码,但更重要的是他们开源了一种思考方式

AI 项目的管理,正在从"提示工程"转向"系统工程"。

这不是贬低 prompt 的价值,而是承认一个现实:

  • 单轮交互的边际收益在递减
  • 多轮协作的系统设计才是新战场

我的判断

短期内,我们会看到:

  • 各垂直领域出现自己的 "Harness" 变体
  • Feature List + AC 成为 AI 产品管理的标配
  • "AI 项目经理"成为一个新角色(或新技能)

长期看,这个范式是否能完全通用,取决于:

我们能否为"创造性工作"也设计出有意义的验收标准

这本身是个哲学问题,也是商业问题。


你怎么看?

如果你的工作流被 AI 接管,你会怎么设计 Feature List 和验收标准?

加入讨论

3 条评论

延伸阅读