

2025 年 10 月 16 日,百度把自家打磨了一年的「多模态文档解析大杀器」--PaddleOCR-VL 正式开源。 它只有 9 亿参数,却在 6 大权威基准上把 30B 级别的“庞然大物”们按在地上摩擦;更离谱的是,一张 A100 每秒能飙 1881 个 Token,比上一代方案快了 253%。 关键是:代码、模型、Demo 全部放出来了,0 元商用。 下面,用一篇“说人话”的实战博客,带你把 PaddleOCR-VL 玩明白。
把一张皱巴巴的手写差旅报销单拍成 2000×3000 的高糊照片,扔进官方在线 Demo:
部分内容已折叠,查看完整文章请先登录。 登录后查看完整文章pip install paddlepaddle-gpu paddlenlp==3.0.0b0 git clone https://github.com/PaddlePaddle/PaddleOCR cd PaddleOCR② 下载模型(~1.8 GB)
python tools/download_model.py PaddleOCR-VL-0.9B③ 推理脚本
infer_vl.pyfrom paddleocr import PaddleOCR ocr = PaddleOCR(use_vl=True, lang='multilingual') # 109 种语言 result = ocr.ocr("scan.pdf", page=1) # 支持 PDF、PNG、JPG print(result.to_markdown()) # 直接出 Markdown输出示例:
下一次,当你面对一摞扫描件、一本古籍、一张手写笔记,别再手动敲字了。
pip install一下,让 PaddleOCR-VL 帮你把“图”变成“文”,把“文”变成“知识”。
声明:本站所有文章,如无特殊说明或标注,均为橙市播客原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。如果你是AI总结,务必加上此版权说明

