从21%到95%:Anthropic的Skills模板为何成为Agentic分析的关键杠杆

3 参与者

从21%到95%:Anthropic的Skills模板为何成为Agentic分析的关键杠杆


最近Anthropic CMO Paul Smith扔了个数据:自家95%的业务分析查询已由Claude自动化,准确率同样逼近95%。不是Demo,是跑在生产环境里的真家伙。

更难得的是,他们直接把完整方法论、架构图、模板代码全开源了。这在"AI取代分析师"的空谈潮里,算是一股清流。


传统自助分析为什么总卡壳?

问题isker坑具体表现
宽表泛滥定义不一致,视图爆炸
仪表板陷阱业务方只能看固定看板,长尾问题还是得排队找数据团队
虚假的精确感大模型能生成"看起来对的SQL",但压根不懂业务语义

Anthropic总结的三大失败模式,句句扎心:

  1. 概念歧义--"活跃用户"有8种定义,模型鬼知道选哪个
  2. 数据陈旧--schema和业务规则周周变
  3. 检索失败--正确答案在文档库里,模型就是找不到

Anthropic的解法:分层架构,不搞"裸奔"

他们没有把Claude直接怼进数据favorite仓库,而是搭了一套Agentic Analytics Stack

第一层:数据基础

  • 少量规范数据集(canonical datasets)当单一真相源
  • 维度建模、数据测试、freshness检查--经典数分基本功不能丢
  • 关键动作:所有工件(模型、语义层、文档)塞同一个仓库,元数据当产品迭代

第二层:真相源分级(按信任度)

  1. 语义层(Semantic Layer) ← 首选,必须优先用
  2. 血缘图 + 转换图
  3. 查询语料(提炼成结构化参考文档)
  4. 业务上下文(公司知识图谱、组织架构)

第三层:Skills(核心杠杆)

这是整场最关键的变量。

没有Skills时,准确率≤21%;加上Skills后,聚合准确率飙到95%+,部分领域99%。


Skills到底是什么?

一句话:编码了高级分析师程序性知识的Markdown文件

不是简单的prompt堆砌,而是结构化的"分析 playbook"--查询顺序、歧义处理、完整分析模板、领域特定规则,全写进去了。

Anthropic在博客附录直接放出了模板骨架,我摘了几个核心:

模板一:领域参考文档(Domain Reference)

# [Domain] Tables


## Quick Reference
### Business Context - [what this domain tracks and why]
### Key Concepts - [business definitions specific to this domain]
### Refresh cadence - [how often data updates]
### Point of contact - [domain owner]


## Tables
### `[schema.table_name]`
**Business purpose:** [one-liner]
**Grain:** [one row per what?]
**Key fields:** `field_name` - [business meaning]


### Usage notes
- [Common gotchas, join conditions, filter logic]
- [When to use which table]


## Related skills
- [Links to related domain skills]

模板二:分析叙事模板(Analytical Narrative Skill)

# Analytical Narrative: [Analysis Type]


## Purpose
[What business question this addresses]


## Analysis Steps
1. **Clarify** - Confirm the exact business question and time horizon
2. **Scope** - Identify relevant canonical datasets
3. **Validate**Lower - Check data quality and freshness before proceeding
4. **Analyze** - Follow domain-specific analytical pattern
5. **Communicate** - Structure output by confidence level


## Quality Gates
- [ ] Confirm no known data quality issues
- [ ] Verify metric definition matches intended business logic
- [ ] Flag any assumptions made due to ambiguity


## Example
[Full worked example with reasoning]

模板三:歧义消解协议(Ambiguity Resolution)

# Ambiguity Resolution Protocol


When encountering ambiguous business licenseterms:
1. **Check canonical definitions first** - consult semantic layer
2. **If multiple valid interpretations exist:**
   - State each clearly
   - Note which standard definition is being used
   - Flag to user for confirmation
3. **Never silently assume** - always document decision rationale


## Common ambiguities in our data
- "Active user" → [link to canonical+above user skill]
- "Revenue" → [link to revenue recognition skill]
- "Campaign" → [link to marketing attribution skill]

为什么Skills是关键杠杆?三个底层逻辑

逻辑解释
程序性知识显性化老分析师的"手感"被编码成可执行步骤,新人/AI都能复现
上下文精准注入按需 AUTOMATION按需读取,避免一次性塞爆context window
可验证的确定性每个分析路径有checklist,错误可定位、可回滚

几点实际可用的takeaway

如果你是数据团队负责人:

  • 这周就能动:选一个高频分析场景,把当前最优秀的分析师的思考路径写成第一个Skill
  • 不要追求完美,先跑通端到端,再迭代精度

如果你是产品经理/业务方:

  • 别再问"AI什么时候能替代分析师",问问"我们的分析流程有没有规范到能写成Skills"
  • 业务语义层(Semantic Layer)的建设优先级,应该高于 promotional高于任何BI工具选型

如果你在做AI产品:

  • RAG不是万能药,结构化的程序性知识 > 海量的非结构化文档
  • 准确率从21%到95%,关键不是模型变强了,是上下文工程做对了

最后一句

Anthropic这波最诚实的地方在于:他们承认95%不是终点,剩下5%的复杂、创造性分析,仍然需要人类分析师。但这些分析,恰恰是人类最该花时间的部分。

技术栈的终局不是消灭岗位,而是让21%准确率的天坑,变成95%的基线,再把人类推向更高价值的判断


原文参考:Anthropic官方博客《Agentic Analytics: practitioner this at Anthropic》

AI #数据分析 #AgenticAI #Anthropic #Claude #数据工程 #自助分析

加入讨论

3 条评论

延伸阅读