从“识别文字”到“压缩世界”:DeepSeek-OCR 把文档图像塞进 64 个 Token
一个老翁
10-21
27

从“识别文字”到“压缩世界”:DeepSeek-OCR 把文档图像塞进 64 个 Token
从“识别文字”到“压缩世界”:DeepSeek-OCR 把文档图像塞进 64 个 Token

1. 缘起:当 LLM 成为“主脑”,视觉通道却成了瓶颈

多模态大模型(LVLM)的标配流程是: 图像 → 视觉编码器 → 上千视觉 Token → LLM。 一旦文档页数上来,上下文窗口瞬间爆炸,速度、成本、精度全线崩溃。

DeepSeek 团队反其道而行: 能不能把一整页 PDF 压成“一张幻灯片”大小的 Token 再交给 LLM? 于是有了 DeepSeek-OCR--一个面向大模型的“视觉上下文压缩器”,而非 yet another OCR。


2. 核心概念:Contextual Optical Compression

名称解释
Optical输入是光学图像(扫描页、照片、表格、PPT)。
Contextual输出不是纯文本,而是保留版面、图表、公式、位置信息的上下文表示。
Compression1024×1024 图像 → 最少 64 个视觉 Token(CLIP 要 1000+)。

压缩率 16×~40×,却能在多项文档理解任务上打平甚至超过全量 Token 方案。


3. 模型架构:三件套

  1. ViT-Compressor 用局部-全局双重注意力,把 2D 特征图先压成“视觉词表”。
  2. Cross-Scale Resampler 动态分辨率输入(512~1280)统一映射到固定 Token 预算。
  3. LLM Adapter 仅 0.3 B 参数,无缝接入任意 LLM(DeepSeek-VL、LLaMA、Qwen 均可)。

训练策略:两阶段

  • 阶段 1:图文对齐,重建文字 + 版面坐标;
  • 阶段 2:指令微调,支持 Markdown、HTML、LaTeX、自然语言问答。

4. 能力矩阵:一张图看懂它能干什么

任务Prompt 示例输出
文档转 Markdown`\n<grounding

Convert the document to markdown.`

# 标题、表格、公式 $...$
纯 OCR\nFree OCR.仅文字,无格式
图表解析\nParse the figure.图表标题、坐标、图例、数据点
目标定位`\nLocate <ref\

先天下之忧而忧<\

/ref\

`

返回坐标框 [x1,y1,x2,y2]
多页 PDF 批量并发脚本每页 0.4 s(A100)

5. 性能速览:速度与精度双杀

分辨率Token 数速度 (A100-40G)Fox 基准 F1OmniDocBench 编辑距离
512×512643200 pg/s74.30.089
1024×10242561100 pg/s78.90.074
1280×1280400750 pg/s80.10.068

注:Fox 是中文文档理解基准,OmniDocBench 是中英文混排 + 公式 + 表格的综合指标。


6. 安装 & 5 分钟上手

环境:CUDA 11.8 + PyTorch 2.6.0(cu118) 官方已打包 vLLM 0.8.5 的 whl,避免依赖地狱。

# 1. 拉仓库
git clone https://github.com/deepseek-ai/DeepSeek-OCR.git
cd DeepSeek-OCR
# 2. 创建虚拟环境
conda create -n dsk-ocr python=3.12 -y
conda activate dsk-ocr
# 3. 一键装依赖
pip install torch==2.6.0 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install vllm-0.8.5+cu118-cp38-abi3-linux_x86_64.whl
pip install -r requirements.txt
pip install flash-attn==2.7.3 --no-build-isolation

6.1 Transformers 单行推理

from transformers import AutoModel, AutoTokenizer
import torch, os
os.environ["CUDA_VISIBLE_DEVICES"]="0"
model_name = "deepseek-ai/DeepSeek-OCR"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(model_name, trust_remote_code=True,
_attn_implementation="flash_attention_2").eval().cuda()
out = model.infer(
tokenizer,
prompt="\n<|grounding|>Convert the document to markdown.",

image_file="demo/paper_page.png",
output_path="results/",
base_size=1024,
image_size=640,
crop_mode=True,
save_results=True)
print(out["markdown"])

输出示例(节选):

## Abstract
We introduce DeepSeek-OCR, a contextually optical compression model...

ModelTokenF1
CLIP102471.2
OCR25680.1

6.2 PDF 批量高速版

cd DeepSeek-OCR-vllm
python run_dpsk_ocr_pdf.py \
--input_dir /data/pdfs \
--output_dir /data/md \
--workers 32 --max_tokens 512

实测 1000 页论文集 < 3 min 完成,显存占用 36 GB。


7. Prompt 工程速查表

场景推荐 Prompt
中英混排文档`\n<grounding

Convert to markdown, keep formulas as LaTeX.`

财务表格`\n<grounding

Output as markdown table, keep numbers exact.`

幻灯片`\n<grounding

Return title, bullets and speaker notes.`

合同定位`\nLocate <ref\

甲方签字<\

/ref\

area.`


8. 局限 & Roadmap

  • 手写体:目前弱于印刷体,计划加入 1 M 手写样本继续预训练。
  • 多栏复栏:极端分栏可能串行,已在 2406 版本修复(增加 2D 坐标嵌入)。
  • 多语言:中文/英文/数字最优,日文、韩文 90%+,其余拉丁语系待加。
  • 开源节奏
    • 2025 Q4 发布 2B 压缩器 + 7B 端到端模型;
    • 2026 Q1 支持视频关键帧压缩;
    • 2026 Q2 推出 128×128 超激进模式(仅 32 Token)。

9. 结语:OCR 的下一站是“Token 经济”

DeepSeek-OCR 把“识别”升维成“压缩”,让 LLM 以 极低 Token 成本 吞下整座文档图书馆。 当视觉通道不再是瓶颈,多模态 RAG、实时论文助手、全库问答、机器人流程自动化都将迎来新的“速度-成本”拐点。

现在就 git clone 一张 GPU,把 PDF 变成 64 个 Token 喂给你的大模型吧-- 世界那么大,一页就装下。


📎 相关链接



微信扫描下方的二维码阅读更多精彩内容

打赏
当 AI 走出 IDE:阿里「Qoder CLI」正式发布,终端开发进入 Agent 时代
上一篇
「LLM 并不懂图像」——Karpathy 的提醒与多模态真相
下一篇
标签
#AI #AI生图 #Nano Banana #即梦 #可灵 #科技 #豆包 #人像 #chatgpt #产品设计 #OpenAI #模型 #开源 #城市名片 #Gemini #马斯克 #Google #3D #写真 #AI视频 #UI #claude #计算机视觉 #苹果 #DeepSeek #电商 #iPhone #播客 #谷歌 #AI设计 #腾讯 #特斯拉 #grok #阿里 #sora #tesla #IDE #买车 #选车 #干货 #搜索 #汽车 #机器人 #Anthropic #通义 #space #星舰 #智慧城市 #OCR #Atlas #微信 #AI手办 #混元 #英伟达 #NVIDIA #宇宙 #veo #百度 #浏览器 #地理空间 #Agent #工作流 #自动化 #AI编码 #iPhone17 #AI搜索 #手办 #小米 #具身智能 #Gemma #火山引擎 #古风美学 #kimi #Qwen #小鹏 #李飞飞 #芯片 #思维链 #Meta #人工智能 #摄影艺术 #AI推理 #商业思维 #罗永浩 #西贝 #食品 #预制菜 #AI文字 #微软 #壁纸 #雷军 #智谱 #星际 #彗星 #Figure #数码 #旅游 #Broadcom #MacBook #Vision Pro #iPad #抖音 #多模态 #VR #RTFM #飞桨 #PaddlePaddle #Qoder #LLM #游戏 #海报 #卫星影像 #复古 #定格 #节日 #万圣节 #工具 #黄仁勋 #肖像 #Apple #金融 #量化 #炒股 #早报 #世界模型 #表情包 #百度世界 #文心 #萝卜快跑 #数字人 #千帆 #小程序 #群聊 #社交 #Optimus #擎天柱 #神经网络 #DeepMind #Antigravity #Cloudflare #bug #运维 #技术事故 #AI教育 #超级计算 #核能源 #AI数学 #小红书 #创业思维 #第一性原理 #问题拆解 #副业增长 #吴恩达 #行业洞察 #行业分析 #产业机遇 #投资方向 #AI手机 #安全对齐 #奖励机制 #插件 #Cursor #可穿戴 #AI硬件 #交流 #攻略 #资料 #脑机
生成中...
点赞是美意,赞赏是鼓励