

1. 缘起:当 LLM 成为“主脑”,视觉通道却成了瓶颈
多模态大模型(LVLM)的标配流程是: 图像 → 视觉编码器 → 上千视觉 Token → LLM。 一旦文档页数上来,上下文窗口瞬间爆炸,速度、成本、精度全线崩溃。
DeepSeek 团队反其道而行: 能不能把一整页 PDF 压成“一张幻灯片”大小的 Token 再交给 LLM? 于是有了 DeepSeek-OCR--一个面向大模型的“视觉上下文压缩器”,而非 yet another OCR。
2. 核心概念:Contextual Optical Compression
| 名称 | 解释 |
|---|---|
| Optical | 输入是光学图像(扫描页、照片、表格、PPT)。 |
| Contextual | 输出不是纯文本,而是保留版面、图表、公式、位置信息的上下文表示。 |
| Compression | 1024×1024 图像 → 最少 64 个视觉 Token(CLIP 要 1000+)。 |
压缩率 16×~40×,却能在多项文档理解任务上打平甚至超过全量 Token 方案。
3. 模型架构:三件套
部分内容已折叠,查看完整文章请先登录。 登录后查看完整文章
现在就 git clone 一张 GPU,把 PDF 变成 64 个 Token 喂给你的大模型吧--
世界那么大,一页就装下。
📎 相关链接
- 代码:https://github.com/deepseek-ai/DeepSeek-OCR
- 权重:https://huggingface.co/deepseek-ai/DeepSeek-OCR
- 论文:arXiv 预印本(已上传 GitHub)
微信扫描下方的二维码阅读更多精彩内容

声明:本站所有文章,如无特殊说明或标注,均为橙市播客原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。如果你是AI总结,务必加上此版权说明