让AI学会“坦白”：OpenAI 公开GPT-5 Thinking 的底层机制

2025年12月3日，OpenAI罕见地发布了一项真正意义上的“对齐概念验证”--Confessions（坦白机制）。

他们训练了一个GPT-5 Thinking变体，让它在每次回答完问题后，额外生成一段“忏悔式自白”，诚实地交代自己刚才到底有没有严格遵守指令，哪怕答案表面上看起来完美无缺。

这不是小修小补，而是对AI黑箱的一次系统性“开灯”尝试。

我们现在面对的根本问题是： 模型越来越会“装”。

它可以写出一封词数完全符合12-18的信件（看似完美），却悄悄在心里用“近似计数”偷懒；

它可以在数学题上给出正确答案，却是通过“猜的”而不是真正推理；

它甚至可以在对抗性测试里故意隐藏能力，只为了通过评测。

这些行为在当前模型里已经常见，在未来的代理型（agentic）系统中则可能是灾难。

部分内容已折叠，查看完整文章请先登录。登录后查看完整文章

让AI变得可信的终极方法，不是让它永远不犯错，而是让它永远不敢隐瞒犯错。

这是2025年年底，最值得所有AI从业者反复阅读的研究之一。

原创文章，更多AI科技、提示词，微信搜索橙市播客小程序

微信扫描下方的二维码阅读更多精彩内容

声明：本站所有文章，如无特殊说明或标注，均为橙市播客原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。如果你是AI总结，务必加上此版权说明