0.9B 参数刷新 SOTA!百度开源「PaddleOCR-VL」:一篇发票、一张手写笔记,甚至 109 种语言的论文都能秒转 Markdown
一个老翁
10-18
65

0.9B 参数刷新 SOTA!百度开源「PaddleOCR-VL」:一篇发票、一张手写笔记,甚至 109 种语言的论文都能秒转 Markdown
0.9B 参数刷新 SOTA!百度开源「PaddleOCR-VL」:一篇发票、一张手写笔记,甚至 109 种语言的论文都能秒转 Markdown

2025 年 10 月 16 日,百度把自家打磨了一年的「多模态文档解析大杀器」--PaddleOCR-VL 正式开源。 它只有 9 亿参数,却在 6 大权威基准上把 30B 级别的“庞然大物”们按在地上摩擦;更离谱的是,一张 A100 每秒能飙 1881 个 Token,比上一代方案快了 253%。 关键是:代码、模型、Demo 全部放出来了,0 元商用。 下面,用一篇“说人话”的实战博客,带你把 PaddleOCR-VL 玩明白。

把一张皱巴巴的手写差旅报销单拍成 2000×3000 的高糊照片,扔进官方在线 Demo:

部分内容已折叠,查看完整文章请先登录。 登录后查看完整文章
pip install paddlepaddle-gpu paddlenlp==3.0.0b0
git clone https://github.com/PaddlePaddle/PaddleOCR
cd PaddleOCR

② 下载模型(~1.8 GB)

python tools/download_model.py PaddleOCR-VL-0.9B

③ 推理脚本 infer_vl.py

from paddleocr import PaddleOCR
ocr = PaddleOCR(use_vl=True, lang='multilingual') # 109 种语言
result = ocr.ocr("scan.pdf", page=1) # 支持 PDF、PNG、JPG
print(result.to_markdown()) # 直接出 Markdown

输出示例

下一次,当你面对一摞扫描件、一本古籍、一张手写笔记,别再手动敲字了。 pip install 一下,让 PaddleOCR-VL 帮你把“图”变成“文”,把“文”变成“知识”。

打赏
零基础到高手:AI 生成「智慧城市能源设施」3D 图标全攻略
上一篇
一图看尽一座城:AI「3D立体城市地标图」全流程攻略
下一篇
标签
#AI #AI生图 #Nano Banana #即梦 #科技 #可灵 #豆包 #人像 #chatgpt #OpenAI #模型 #产品设计 #开源 #Gemini #人工智能 #Google #马斯克 #claude #城市名片 #写真 #AI视频 #3D #电商 #谷歌 #计算机视觉 #UI #工具 #苹果 #DeepSeek #智谱 #IDE #干货 #iPhone #腾讯 #播客 #特斯拉 #grok #Anthropic #Agent #阿里 #AI设计 #tesla #sora #汽车 #AI编码 #办公 #买车 #选车 #搜索 #通义 #机器人 #LLM #自动化 #微信 #space #星舰 #英伟达 #NVIDIA #智慧城市 #OCR #Atlas #AI推理 #AI手机 #glm #大橙市导航 #AI手办 #混元 #宇宙 #Gemma #veo #百度 #浏览器 #地理空间 #Meta #工作流 #桌面 #tts #iPhone17 #AI搜索 #手办 #小米 #罗永浩 #具身智能 #数码 #火山引擎 #多模态 #古风美学 #kimi #Apple #Qwen #小鹏 #李飞飞 #芯片 #思维链 #摄影艺术 #商业思维 #吴恩达 #语音合成 #AGI #MCP #AI助手 #西贝 #食品 #预制菜 #AI文字 #微软 #壁纸 #雷军 #星际 #彗星 #Figure #旅游 #Broadcom #MacBook #Vision Pro #iPad #抖音 #VR #RTFM #飞桨 #PaddlePaddle #Qoder #游戏 #海报 #卫星影像 #复古 #定格 #节日 #万圣节 #黄仁勋 #肖像 #金融 #量化 #炒股 #早报 #世界模型 #表情包 #百度世界 #文心 #萝卜快跑 #数字人 #千帆 #小程序 #群聊 #社交 #Optimus #擎天柱 #神经网络 #DeepMind #Antigravity #Cloudflare #bug #运维 #技术事故 #AI教育 #超级计算 #核能源 #AI数学 #小红书 #创业思维 #第一性原理 #问题拆解 #副业增长 #行业洞察 #行业分析 #产业机遇 #投资方向 #安全对齐 #奖励机制 #插件 #Cursor #可穿戴 #AI硬件 #端侧 #数据中心 #APP #GPU #TPU #Manus #Skills #FSD #自动驾驶 #Gmail #邮箱 #算法 #罗振宇 #跨年 #成长 #职场 #梁文峰 #MoE #Engram #Skill #AI工程 #Claude Code #Subagent #AI系统设计 #就业影响 #工作自动化 #AI成本 #隐私保护 #广告 #收入模式 #广告政策 #AI模型 #推荐算法 #Transformer架构 #XAI #大橙市 #公众号 #官方 #智能助手 #智能机器人 #自动化流程 #Clawdbot #安装教程 #交流 #攻略 #资料 #脑机
生成中...
点赞是美意,赞赏是鼓励