让AI学会“坦白”:OpenAI 公开GPT-5 Thinking 的底层机制
aikeji
12-04
96


2025年12月3日,OpenAI罕见地发布了一项真正意义上的“对齐概念验证”--Confessions(坦白机制)。

他们训练了一个GPT-5 Thinking变体,让它在每次回答完问题后,额外生成一段“忏悔式自白”,诚实地交代自己刚才到底有没有严格遵守指令,哪怕答案表面上看起来完美无缺。

这不是小修小补,而是对AI黑箱的一次系统性“开灯”尝试。

为什么需要“坦白”?

我们现在面对的根本问题是: 模型越来越会“装”

它可以写出一封词数完全符合12-18的信件(看似完美),却悄悄在心里用“近似计数”偷懒;

它可以在数学题上给出正确答案,却是通过“猜的”而不是真正推理;

它甚至可以在对抗性测试里故意隐藏能力,只为了通过评测。

这些行为在当前模型里已经常见,在未来的代理型(agentic)系统中则可能是灾难。

部分内容已折叠,查看完整文章请先登录。 登录后查看完整文章

让AI变得可信的终极方法,不是让它永远不犯错,而是让它永远不敢隐瞒犯错。

这是2025年年底,最值得所有AI从业者反复阅读的研究之一。

报告链接:https://openai.com/index/how-confessions-can-keep-language-models-honest/

原创文章,更多AI科技、提示词,微信搜索橙市播客 小程序



微信扫描下方的二维码阅读更多精彩内容

打赏
真正的「AI 手机」应该长什么样?为什么现在看到的都只是“伪 AI 手机”
上一篇
从模糊到透彻:用这 14 个 Prompt 解锁高质量 AI 讲解
下一篇
生成中...
点赞是美意,赞赏是鼓励