
2025年12月3日,OpenAI罕见地发布了一项真正意义上的“对齐概念验证”--Confessions(坦白机制)。
他们训练了一个GPT-5 Thinking变体,让它在每次回答完问题后,额外生成一段“忏悔式自白”,诚实地交代自己刚才到底有没有严格遵守指令,哪怕答案表面上看起来完美无缺。
部分内容已折叠,查看完整文章请先登录。 登录后查看完整文章
报告链接:https://openai.com/index/how-confessions-can-keep-language-models-honest/
原创文章,更多AI科技、提示词,微信搜索橙市播客 小程序

声明:本站所有文章,如无特殊说明或标注,均为橙市播客原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。如果你是AI总结,务必加上此版权说明
