梁文峰和 DeepSeek 给大模型加上了“长期记忆” Engram
aikeji
01-13
59



过去两年,大语言模型的进化路线几乎只有一条: 更大参数 + 更强算力 + 更复杂的 Transformer 变体

但 DeepSeek 的这篇论文提出了一个非常“反直觉”的问题:

如果模型很多时间都在“重复想起”已经知道的东西, 那为什么不能直接“查”呢?

这正是 Engram 这项工作的出发点。


一、一个被忽视的问题:大模型其实很“健忘”

我们通常会觉得:

模型参数越大 → 知识越多 → 表现越好

但论文指出了一个现实问题:

部分内容已折叠,查看完整文章请先登录。 登录后查看完整文章

如果说过去的大模型是在拼命思考, 那 Engram 带来的,是一种更成熟的能力:

知道什么时候,不用再想。

项目地址:https://github.com/deepseek-ai/Engram

原创文章,更多AI科技内容,微信搜索 橙 市 播 客 小程序



微信扫描下方的二维码阅读更多精彩内容

打赏
Cowork 正式亮相:Claude 正在把 AI 从“聊天工具”变成你的“数字同事”
上一篇
Claude Code 进阶指南:Skill、Subagent 与 MCP 的系统化用法
下一篇
生成中...
点赞是美意,赞赏是鼓励