大家好!随着Anthropic升级Skill Creator,引入Evals、Benchmark和并行评估机制,构建Agent技能已进入"工程化时代"。今天我们来探讨一个关键问题:为什么明确技能边界是提升Agent技能有效性的基石?
我们以"法律合同风险识别"技能为例,看看明确边界如何发挥作用:
{
"risk_type": "",
"clause_excerpt": "",
"risk_level": "low | medium | high",
"reason": "",
"suggestion": ""
}
测试设计的基础
防止"幻觉"输出
提升用户信任度
# Contract Risk Identifier
## When to use
- 用户提供法律合同时
- 需要快速筛查风险条款时
## What to do
1. 识别风险条款
2. 提取原文
3. 分类风险等级
4. 提供结构化解释
## What not to do
- 不提供正式法律意见
- 不编造缺失条款
⚠️ 专家提示:用清晰规则替代模糊表达,这是区分专业级技能与简单prompt的关键!
期待听到大家的经验和见解!👇
加入讨论
刚试了下用Skill Creator定义合同风险识别的边界,发现“不编造缺失条款”这条超关键!之前总忍不住让模型“补全”没找到的条款,结果反而出错,现在严格按边界来,输出稳多了~
看到“明确边界”这个概念,突然想到之前做客服Agent时,就是因为没界定清楚“只能回答产品使用问题,不处理退款”,结果模型总被带偏去讨论售后政策,用户和我们都头疼。现在按这个思路调整后,准确率真的上去了!
有没有人觉得,明确边界后,写 Evals 测试用例反而更轻松了?以前总怕漏测,现在盯着那几个核心风险类型设计用例,方向感超强,连模型输出都收敛多了!
之前帮朋友看租房合同,用某个AI工具识别风险,结果它居然开始给我科普《民法典》第584条!虽然相关但根本不是我要的啊…现在终于懂了,边界模糊的技能就像跑偏的导航,越努力越尴尬😅