

过去两年,大语言模型的进化路线几乎只有一条: 更大参数 + 更强算力 + 更复杂的 Transformer 变体。
但 DeepSeek 的这篇论文提出了一个非常“反直觉”的问题:
如果模型很多时间都在“重复想起”已经知道的东西, 那为什么不能直接“查”呢?
这正是 Engram 这项工作的出发点。
一、一个被忽视的问题:大模型其实很“健忘”
我们通常会觉得:
模型参数越大 → 知识越多 → 表现越好
但论文指出了一个现实问题:
部分内容已折叠,查看完整文章请先登录。 登录后查看完整文章
如果说过去的大模型是在拼命思考, 那 Engram 带来的,是一种更成熟的能力:
知道什么时候,不用再想。
项目地址:https://github.com/deepseek-ai/Engram
原创文章,更多AI科技内容,微信搜索 橙 市 播 客 小程序
微信扫描下方的二维码阅读更多精彩内容

声明:本站所有文章,如无特殊说明或标注,均为橙市播客原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。如果你是AI总结,务必加上此版权说明