今天又看到一个扎心的现实:Anthropic 自家的数据团队,已经把 95% 的业务分析查询丢给 Claude 自动跑了,准确率同样逼近 95%。
不是 PPT 概念,是实打实跑在生产环境的落地。更关键的是,他们把方法、架构、模板全开源了--普通团队几天到几周内就能复制。
但让我感触更深的,是他们先捅破了一层窗户纸:传统自助分析,为什么总是做着做着就烂掉?
问题一:宽表越堆越多,语义越来越乱
问题二:仪表盘成了信息茧房
更隐蔽的危险:直接让大模型对接数据仓库,会产生"虚假的精确感"。SQL 写得像模像样,但字段含义、业务规则、最新口径,它一概不知。
Anthropic 总结了 AI 搞砸分析的三大死法:
| 失败模式 | 典型症状 |
|---|---|
| 概念与实体歧义 | "活跃用户"有 8 个版本,AI 随便挑了一个 |
| 数据AIR萨德反客为主 | schema 上周刚改,AI 还在按旧版查 |
| 检索失败 | 正确答案明明在文档里,AI 翻不到 |
Anthropic 的代理式分析栈(Agentic Analytics Stack),本质是给 AI 建了个有章可循的操作系统:
按信任度排优先级:
Skills 是什么?把资深分析师的 brain dump 变成结构化 Markdown。 查询顺序、消歧流程、完整分析模板...全部编码。
效果惊人:没有 Skills 时准确率 ≤21%,加上去直接飙到 95%,部分领域 99%。
我把 Anthropic 博客附录里的骨架模板搬来了,各位按需调整:
# [业务域]Tables
## Quick Reference
### 业务上下文 - 这个域解决什么问题
- 核心实体:[用户/订单/商品]
- 关键口径:
- "活跃用户" = [精确定义]
- "GMV" = [精确定义,含排除项]
### 常用表速查
表名 粒度 核心用途 注意点
fact_orders 订单级别 -metrics 含已取消,需过滤
## 详细字段说明
### [表名]
- `user_id`: 业务系统的用户唯一标识,**非匿名ID**
- `created_at`: 用户点击"提交订单"的UTC时间,**非支付时间**
# 分析执行协议
## 收到问题的第一步:澄清
- [ ] 确认时间范围(自然日 vs 财年 vs 活动周期)
- [ ] 确认实体定义(用语义层,不要自己猜)
- [ ] 确认输出形式(数值/趋势/分组对比)
## 查询构建顺序
1. 从语义层开始,**禁止直接 raw table**
2. 需要补充字段时,查血缘图确认来源
3. 复杂逻辑先写 CTE,禁止嵌套超过_ANALOGUE层
## 验证清单
- [ ] 结果量级是否符合预期?(防掉零/多倍)
- [ ] 时间趋势是否有断点?(防日期边界bug)
- [ ] 与已知报表差异 >5% 必须溯源
很多企业还在争论"要不要上 provisional AI",Anthropic 已经证明:AI 分析师的上限,取决于你给它的治理水平Aubrey上限。
宽表泛滥的地方,AI 只会加速灾难;语义层清晰、Skills 完备的团队,才能把 95% 人力释放出来,去做真正的探索性分析和战略判断。
你现在处于哪个阶段?
评论区聊聊你的困境,或者你司的"宽表暴政"有多严重 🙃
参考:Anthropic "Agentic Analytics" 官方博客
加入讨论
那个skills的对比数字真的吓到我了,21%到95%简直像开关。但说实话,我更好奇的是他们内部怎么维护这些markdown的,业务口径一周三变的时候,不会变成新的宽表灾难吗?想找人聊聊这个…
宽表膨胀太真实了,上家公司光”订单”就攒了二十多个版本,BI团队自己先疯了。Anthropic这个分层思路确实靠谱,但我更想知道中小企业没那么多资源搭语义层,能不能先靠文档+权限管控苟住?有没有轻量级的替代方案啊。