从“识别文字”到“压缩世界”:DeepSeek-OCR 把文档图像塞进 64 个 Token
一个老翁
10-21
106


1. 缘起:当 LLM 成为“主脑”,视觉通道却成了瓶颈

多模态大模型(LVLM)的标配流程是: 图像 → 视觉编码器 → 上千视觉 Token → LLM。 一旦文档页数上来,上下文窗口瞬间爆炸,速度、成本、精度全线崩溃。

DeepSeek 团队反其道而行: 能不能把一整页 PDF 压成“一张幻灯片”大小的 Token 再交给 LLM? 于是有了 DeepSeek-OCR--一个面向大模型的“视觉上下文压缩器”,而非 yet another OCR。


2. 核心概念:Contextual Optical Compression

名称解释
Optical输入是光学图像(扫描页、照片、表格、PPT)。
Contextual输出不是纯文本,而是保留版面、图表、公式、位置信息的上下文表示。
Compression1024×1024 图像 → 最少 64 个视觉 Token(CLIP 要 1000+)。

压缩率 16×~40×,却能在多项文档理解任务上打平甚至超过全量 Token 方案。


3. 模型架构:三件套

部分内容已折叠,查看完整文章请先登录。 登录后查看完整文章

现在就 git clone 一张 GPU,把 PDF 变成 64 个 Token 喂给你的大模型吧-- 世界那么大,一页就装下。


📎 相关链接



微信扫描下方的二维码阅读更多精彩内容

打赏
当 AI 走出 IDE:阿里「Qoder CLI」正式发布,终端开发进入 Agent 时代
上一篇
「LLM 并不懂图像」——Karpathy 的提醒与多模态真相
下一篇
生成中...
点赞是美意,赞赏是鼓励