梁文峰和 DeepSeek 给大模型加上了“长期记忆” Engram

过去两年，大语言模型的进化路线几乎只有一条： 更大参数 + 更强算力 + 更复杂的 Transformer 变体。

但 DeepSeek 的这篇论文提出了一个非常“反直觉”的问题：

如果模型很多时间都在“重复想起”已经知道的东西，那为什么不能直接“查”呢？

这正是 Engram 这项工作的出发点。

一、一个被忽视的问题：大模型其实很“健忘”

我们通常会觉得：

模型参数越大 → 知识越多 → 表现越好

但论文指出了一个现实问题：

部分内容已折叠，查看完整文章请先登录。登录后查看完整文章

如果说过去的大模型是在拼命思考，那 Engram 带来的，是一种更成熟的能力：

知道什么时候，不用再想。

原创文章，更多AI科技内容，微信搜索橙市播客小程序

微信扫描下方的二维码阅读更多精彩内容

声明：本站所有文章，如无特殊说明或标注，均为橙市播客原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。如果你是AI总结，务必加上此版权说明