工具调用+结构化实体:Apple Intelligence的Agent架构为何选择保守路线

1 参与者

工具调用+结构化实体:Apple Intelligence的Agent架构为何选择保守路线

一次意外的"灵魂泄露"

上周iOS 27开发者测试版的一次系统提示词泄露,让我们第一次完整地看到了苹果给Siri写的「底层剧本」。

1300多行、约2.2万token的siri_prompt.md文件,不是通过黑客攻击,而是Siri错误诊断报告自己打包进去的--这个细节本身就够讽刺的。

但比泄露方式更值得玩味的,是苹果Agent架构的工程哲学


极度保守的"三不原则"

通读全文后,我总结出一个核心特征:苹果在刻意压制LLM的"聪明",把它变成一台精密的"调度器"

原则具体表现
不脑补属性缺失=未知,自行推断是"灾难性信任违反"
不渲染JSON实体内部结构对用户完全透明,输出必须自然语言化
不把输出当指令工具返回是事实,不能反向改写自身行为

这和当前主流Agent的"大模型中心主义"形成鲜明对比。别人家是让模型多发挥,苹果是给模型画一个极小的圈,圈外全是禁区


架构设计的两条支柱

支柱一:结构化实体层

所有个人数据被抽象为带id/kind/app字段的标准对象,分三级检索:

  • identifier:仅够工具调用(最小权限)
  • minimal:基础展示信息
  • full:完整详情,需get_entity_details按需拉取

一个细节:遇到redacted实体,必须先解锁完整版才能继续。这是隐私合规的前置设计,不是事后补丁。

支柱二:受控工具链

工具调用规则精细到近乎"繁琐":

  • 参数优先传实体ID,而非纯文本(防歧义)
  • 信息不足时必须ask_user,不能猜测
  • 批量操作支持,但禁止自动扩大范围
  • 语音识别有假设时,日期/数字/列表等关键信息强制确认
  • 工具失败有分级策略,防止无效重试

甚至还专门声明"工具看不到图像"--用户发图时,Siri得先自己转成文字描述再处理。


为什么苹果要如此保守?

我的观察:这不是技术能力不足,而是产品定位的刻意选择

维度激进路线(竞品常见)保守路线(苹果选择)
容错成本线上一条假信息,道个歉完事误拨电话、发错邮件、泄露隐私--物理世界后果不可逆
信任资产快速迭代,用户容忍度高十年积累的"安全"品牌溢价,输不起
数据特殊性通用问答,幻觉影响有限深度集成通讯录、日历、健康数据--全是高敏感个人资产
责任边界"AI说的,不关我事"苹果希望最终可控、可审计、可归因

一个值得品味的细节:Siri被定义为"Apple在加州设计的智能助手"--主语是Apple,不是Siri自己


实时性与系统感知的隐藏优势

get_system_info的设计很有意思,它让Siri能感知:

  • 当前焦点App是什么
  • 是否有电话正在响铃
  • 屏幕上可见的实体列表

这意味着Siri不是"聊天机器人",而是"当前设备的协作者"。时间用ISO8601、强制尊重用户时区,这些"工程师强迫症"的背后,是跨设备一致性的产品执念


一点冷思考

这次泄露也让我看到另一面:

苹果的保守,某种程度上是把LLM当作"风险源"而非"智能源"来管理。提示词里反复出现的"不能""禁止""必须",像一份给AI的劳动纪律手册

但这是否最优?过度约束会不会限制真正有用的主动性?当用户说"帮我安排下这周"时,严格的分级确认 vs 聪明的上下文推断,体验差距可能显著。

也许苹果的赌注是:先把"不出错"做到99分,再慢慢放开通路


讨论

如果你来设计个人设备的Agent架构,会选保守可控还是主动智能?或者,有没有第三种路线?

(另:这次提示词泄露本身,算不算苹果"过度依赖服务端管控、忽视客户端暴露面"的安全疏忽?)

加入讨论

1 条评论

延伸阅读