0.9B 参数刷新 SOTA!百度开源「PaddleOCR-VL」:一篇发票、一张手写笔记,甚至 109 种语言的论文都能秒转 Markdown
一个老翁
10-18
31

0.9B 参数刷新 SOTA!百度开源「PaddleOCR-VL」:一篇发票、一张手写笔记,甚至 109 种语言的论文都能秒转 Markdown
0.9B 参数刷新 SOTA!百度开源「PaddleOCR-VL」:一篇发票、一张手写笔记,甚至 109 种语言的论文都能秒转 Markdown

2025 年 10 月 16 日,百度把自家打磨了一年的「多模态文档解析大杀器」--PaddleOCR-VL 正式开源。 它只有 9 亿参数,却在 6 大权威基准上把 30B 级别的“庞然大物”们按在地上摩擦;更离谱的是,一张 A100 每秒能飙 1881 个 Token,比上一代方案快了 253%。 关键是:代码、模型、Demo 全部放出来了,0 元商用。 下面,用一篇“说人话”的实战博客,带你把 PaddleOCR-VL 玩明白。


一、先跑个 Demo:3 张图,看它到底多“离谱”

1. 手写报销单 → JSON

把一张皱巴巴的手写差旅报销单拍成 2000×3000 的高糊照片,扔进官方在线 Demo:

输出(节选)

{
"type": "table",
"reading_order": 2,
"content": [
{"项目": "住宿费", "金额": "880.00"},
{"项目": "交通费", "金额": "256.50"},
{"项目": "合计", "金额": "1136.50"}
]
}

耗时:0.37 秒 对照人工录入:财务小姐姐说“比我自己敲还准,连‘捌’和‘8’都没混”。


2. 英文论文里的复杂表格 → Markdown

一篇 ICML 2025 双栏 PDF,直接截第 3 页最复杂的消融实验表:

输出

ModelParamsF1Inference
PaddleOCR-VL-0.9B0.9 B94.71881 tok/s
MinerU2.52.3 B93.91648 tok/s
dots.ocr-30B30 B94.2533 tok/s

亮点:表头自动对齐,跨栏单元格用 colspan 还原,连脚注 都保留。


3. 阿拉伯语古籍 → 可搜索文本

一张 14 世纪阿拉伯医学手稿,文字像蛇一样拐着弯:

输出: “وصف الدواء لعلاج الصداع ...” 识别率:97.4%(百度内部多语言库测评) 意义:中东某数字人文团队直接批量跑 12 万张扫描页,3 小时完成 OCR+全文检索索引,之前用某商业引擎要 3 周。


二、架构拆解:为什么 0.9B 能打赢 30B?

0.9B 参数刷新 SOTA!百度开源「PaddleOCR-VL」:一篇发票、一张手写笔记,甚至 109 种语言的论文都能秒转 Markdown

模块传统方案PaddleOCR-VL 做法好处
视觉编码固定 224×224,丢细节NaViT 风格 动态高分辨率,最长边 2048,可切 49 张图 Patch小字、长公式不糊
语言模型外挂 7B/13B LLM,推理慢自研 ERNIE-4.5-0.3B,深度压缩 + 蒸馏显存占用 ↓80%
训练数据公开 OCR 语料为主5 亿张 内部业务图(搜索、网盘、文库)+ 1.2 亿张 合成图真实噪声鲁棒
任务解码先 OCR 再规则合并端到端生成 Markdown + JSON,序列一次性输出误差不累积

一句话:把“大模型”做薄,把“厚数据”做深。


三、两阶段流水线:版面 → 内容,像“排版师”+“打字员”

  1. PP-DocLayoutV2(排版师) 负责“画格子”:把一页纸分成正文、标题、页眉、页脚、图注、表格、公式岛等 23 类区域,并给出阅读顺序。 示例:

不同颜色框代表不同语义区,数字即阅读顺序。

  1. PaddleOCR-VL-0.9B(打字员) 按顺序逐个格子“填空”:
  • 见表格 → 生成 Markdown 表格
  • 见公式 → 输出 LaTeX
  • 见流程图 → 输出 mermaid 语法
  • 见手写 → 直接上识别,无需额外手写模块

最后把两阶段结果聚合,一页 PDF 平均 0.8 秒变成可编辑的 Markdown。


四、性能横向 PK:速度、精度双杀

模型参数量整页 F1推理速度 (tok/s)显存 (FP16)
PaddleOCR-VL0.9 B92.418813.1 GB
MinerU2.52.3 B91.816485.7 GB
dots.ocr30 B92.153324 GB
GPT-4V-OCR*~100 B91.518080 GB

* 数据来自官方技术报告,GPT-4V 为 API 估算速度 结论:在 A100 上单卡就能跑 32 路并发,一台 8 卡机≈小型 OCR 工厂


五、上手教程:5 行代码,把自家扫描件变 Markdown

① 装包

pip install paddlepaddle-gpu paddlenlp==3.0.0b0
git clone https://github.com/PaddlePaddle/PaddleOCR
cd PaddleOCR

② 下载模型(~1.8 GB)

python tools/download_model.py PaddleOCR-VL-0.9B

③ 推理脚本 infer_vl.py

from paddleocr import PaddleOCR
ocr = PaddleOCR(use_vl=True, lang='multilingual') # 109 种语言
result = ocr.ocr("scan.pdf", page=1) # 支持 PDF、PNG、JPG
print(result.to_markdown()) # 直接出 Markdown

输出示例

医疗险理赔申请书

姓名张三身份证号3101****1234
就诊医院上海市第一人民医院科室心内科
费用总额12800.00 元申请金额12800.00 元

六、场景彩蛋:他们已经在这样玩

客户场景效果
某省社保局每天 80 万张医疗单据单证录入人力从 120 人→9 人,关键字段准确率 99.2%
跨境电商 SheIn109 种语言商品说明书3 小时完成 50 万 SKU 说明书结构化,多语言搜索上线
北大数字人文明清善本扫描件生僻字(𪚥、龦)识别率 96%,直接生成 TEI XML 供语义检索
个人极客把 Notion 剪藏的 2 万篇论文 PNG 公式→LaTeX平均 0.5 秒/页,Mathpix 付费账户直接退役

七、总结:为什么你现在就能用?

  1. 真开源:Apache-2.0 协议,商用 0 元,代码全在 GitHub。
  2. 真轻量:3 GB 显存就能跑,RTX 3060 笔记本也流畅。
  3. 真多语言:中文、英文、阿拉伯语、印地语、泰米尔语……109 种语言“开箱即用”。
  4. 真结构化:不是简单 OCR 字符串,而是直接可渲染的 Markdown / JSON / LaTeX,后端数据库、前端渲染一条龙。

下一次,当你面对一摞扫描件、一本古籍、一张手写笔记,别再手动敲字了。 pip install 一下,让 PaddleOCR-VL 帮你把“图”变成“文”,把“文”变成“知识”。


相关链接(建议收藏)



微信扫描下方的二维码阅读更多精彩内容

打赏
零基础到高手:AI 生成「智慧城市能源设施」3D 图标全攻略
上一篇
一图看尽一座城:AI「3D立体城市地标图」全流程攻略
下一篇
标签
#AI #AI生图 #Nano Banana #即梦 #可灵 #科技 #豆包 #人像 #chatgpt #产品设计 #OpenAI #模型 #开源 #城市名片 #Gemini #马斯克 #Google #3D #写真 #AI视频 #UI #claude #计算机视觉 #苹果 #DeepSeek #电商 #iPhone #播客 #谷歌 #AI设计 #腾讯 #特斯拉 #grok #阿里 #sora #tesla #IDE #买车 #选车 #干货 #搜索 #汽车 #机器人 #Anthropic #通义 #space #星舰 #智慧城市 #OCR #Atlas #微信 #AI手办 #混元 #英伟达 #NVIDIA #宇宙 #veo #百度 #浏览器 #地理空间 #Agent #工作流 #自动化 #AI编码 #iPhone17 #AI搜索 #手办 #小米 #具身智能 #Gemma #火山引擎 #古风美学 #kimi #Qwen #小鹏 #李飞飞 #芯片 #思维链 #Meta #人工智能 #摄影艺术 #AI推理 #商业思维 #罗永浩 #西贝 #食品 #预制菜 #AI文字 #微软 #壁纸 #雷军 #智谱 #星际 #彗星 #Figure #数码 #旅游 #Broadcom #MacBook #Vision Pro #iPad #抖音 #多模态 #VR #RTFM #飞桨 #PaddlePaddle #Qoder #LLM #游戏 #海报 #卫星影像 #复古 #定格 #节日 #万圣节 #工具 #黄仁勋 #肖像 #Apple #金融 #量化 #炒股 #早报 #世界模型 #表情包 #百度世界 #文心 #萝卜快跑 #数字人 #千帆 #小程序 #群聊 #社交 #Optimus #擎天柱 #神经网络 #DeepMind #Antigravity #Cloudflare #bug #运维 #技术事故 #AI教育 #超级计算 #核能源 #AI数学 #小红书 #创业思维 #第一性原理 #问题拆解 #副业增长 #吴恩达 #行业洞察 #行业分析 #产业机遇 #投资方向 #AI手机 #安全对齐 #奖励机制 #插件 #Cursor #可穿戴 #AI硬件 #交流 #攻略 #资料 #脑机
生成中...
点赞是美意,赞赏是鼓励