
大家好,我是Ai学习的老章
前文:大模型 OCR 哪家强?全面对比 四张配图是高度总结
本文详细文字分析

参数项 | 详情 |
|---|---|
模型规模 | 3B参数 |
发布时间 | 2026年1月 |
架构 | Visual Causal Flow + DeepEncoder V2 |
开源协议 | Apache 2.0 |
支持分辨率 | 动态分辨率:(0-6)×768×768 + 1×1024×1024 |
视觉Token数 | (0-6)×144 + 256 tokens |

参数项 | 详情 |
|---|---|
模型规模 | 1B参数 |
发布时间 | 2025年11月 |
架构 | Hunyuan原生多模态架构 |
开源协议 | 自定义许可证 |
支持分辨率 | 动态分辨率:(0-6)×768×768 + 1×1024×1024 |
视觉Token数 | (0-6)×144 + 256 tokens |

参数项 | 详情 |
|---|---|
模型规模 | 0.9B参数 |
发布时间 | 2026年1月 |
架构 | ERNIE 4.5 + 多任务训练 |
开源协议 | Apache 2.0 |
支持分辨率 | 自适应,最大~1M像素(Spotting任务1.6M像素) |
基础模型 | ERNIE-4.5-0.3B-Paddle |

参数项 | 详情 |
|---|---|
模型规模 | 0.9B参数 |
发布时间 | 2026年1月 |
架构 | GLM-V encoder-decoder + CogViT视觉编码器 |
开源协议 | MIT |
语言解码器 | GLM-0.5B |
视觉编码器 | CogViT(大规模图文预训练) |
模型 | 参数量 | 推理速度 | 显存需求 | 部署难度 |
|---|---|---|---|---|
DeepSeek-OCR-2 | 3B | ~2500 tokens/s | 20GB+ | 中等 |
HunyuanOCR | 1B | 中等 | 10-15GB | 低 |
PaddleOCR-VL-1.5 | 0.9B | 1.86页/秒 | 8-12GB | 低 |
GLM-OCR | 0.9B | 高 | 8-12GB | 低 |
结论:PaddleOCR-VL-1.5和GLM-OCR在参数效率上最优,适合资源受限环境。
模型 | 整体得分 | 文本 | 公式 | 表格 | 阅读顺序 |
|---|---|---|---|---|---|
GLM-OCR | 94.62 | 94.73 | 最优 | 最优 | - |
PaddleOCR-VL-1.5 | 94.5 | 最优 | 优秀 | 优秀 | 最优 |
HunyuanOCR | 94.10 | 94.73 | 91.81 | 优秀 | - |
DeepSeek-OCR-2 | 87.01 | 83.37 | 优秀 | 84.97 | - |
结论:GLM-OCR和PaddleOCR-VL-1.5在文档解析上并列第一梯队。
场景 | PaddleOCR-VL-1.5 | HunyuanOCR | DeepSeek-OCR-2 | GLM-OCR |
|---|---|---|---|---|
扫描 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ |
倾斜 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ |
弯曲 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ |
屏摄 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ |
光照 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ |
结论:PaddleOCR-VL-1.5在真实场景下鲁棒性最强。
模型 | 支持语言数 | 特色语言 | 混合语言 |
|---|---|---|---|
HunyuanOCR | 100+ | 14种小语种翻译 | ✅ 优秀 |
PaddleOCR-VL-1.5 | 多语言 | 藏文、孟加拉语 | ✅ 优秀 |
GLM-OCR | 8种 | - | ✅ 良好 |
DeepSeek-OCR-2 | 多语言 | - | ✅ 良好 |
结论:HunyuanOCR在多语言支持上最全面。
任务 | 最佳模型 | 性能指标 |
|---|---|---|
信息提取(卡片) | HunyuanOCR | 92.29% |
信息提取(票据) | HunyuanOCR | 92.53% |
视频字幕提取 | HunyuanOCR | 92.87% |
印章识别 | PaddleOCR-VL-1.5 | SOTA |
文本定位(Spotting) | PaddleOCR-VL-1.5 | SOTA |
公式识别 | GLM-OCR | SOTA |
表格识别 | GLM-OCR | SOTA |
图表解析 | DeepSeek-OCR-2 | 优秀 |
模型 | 推理框架支持 | SDK/工具 | 云服务 | 社区活跃度 |
|---|---|---|---|---|
PaddleOCR-VL-1.5 | vLLM, Transformers | PaddleOCR CLI/API | 有限 | ⭐⭐⭐⭐⭐ |
HunyuanOCR | vLLM, Transformers | 官方SDK | 腾讯云 | ⭐⭐⭐⭐ |
GLM-OCR | vLLM, SGLang, Ollama | 完善SDK | Z.ai API | ⭐⭐⭐⭐ |
DeepSeek-OCR-2 | vLLM, Transformers | 官方脚本 | DeepSeek API | ⭐⭐⭐⭐ |
结论:PaddleOCR-VL-1.5生态最成熟,GLM-OCR部署选项最多样。
评估维度 | DeepSeek-OCR-2 | HunyuanOCR | PaddleOCR-VL-1.5 | GLM-OCR |
|---|---|---|---|---|
文档解析精度 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
真实场景鲁棒性 | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
推理效率 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
多语言支持 | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ |
信息提取 | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
部署便捷性 | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
生态成熟度 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
开源友好度 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
综合得分 | 28/40 | 34/40 | 38/40 | 35/40 |
推荐顺序:
理由:学术文档包含大量公式、表格和复杂排版,GLM-OCR在这些方面表现最佳。
推荐顺序:
理由:这类文档常有扫描、倾斜、印章等特点,PaddleOCR-VL-1.5专门优化了这些场景。
推荐顺序:
理由:HunyuanOCR在卡片和票据信息提取上有显著优势。
推荐顺序:
理由:HunyuanOCR在视频字幕提取上有压倒性优势。
推荐顺序:
理由:HunyuanOCR的多语言覆盖最全面。
推荐顺序:
理由:参数量小,显存需求低,适合边缘部署。
推荐顺序:
理由:推理速度快,资源占用低,适合高并发场景。
模型 | 核心创新 | 技术亮点 |
|---|---|---|
DeepSeek-OCR-2 | Visual Causal Flow | 模拟人类视觉编码,因果流视觉编码器 |
HunyuanOCR | 原生多模态架构 | 端到端统一模型,单指令完成复杂任务 |
PaddleOCR-VL-1.5 | 多任务联合训练 | 不规则形状定位,跨页表格合并 |
GLM-OCR | MTP + 强化学习 | Multi-Token Prediction,稳定全任务RL |
模型 | Markdown | LaTeX | HTML | JSON | 多边形坐标 |
|---|---|---|---|---|---|
DeepSeek-OCR-2 | ✅ | ✅ | ✅ | ❌ | ✅ |
HunyuanOCR | ✅ | ✅ | ✅ | ✅ | ✅ |
PaddleOCR-VL-1.5 | ✅ | ✅ | ✅ | ✅ | ✅ |
GLM-OCR | ✅ | ✅ | ✅ | ✅(严格Schema) | ❌ |
开始选择OCR模型
│
├─ 需要处理真实世界文档(扫描、倾斜、弯曲)?
│ └─ 是 → **PaddleOCR-VL-1.5**
│
├─ 需要最高精度的公式/表格识别?
│ └─ 是 → **GLM-OCR**
│
├─ 需要多语言支持或信息提取?
│ └─ 是 → **HunyuanOCR**
│
├─ 需要视频字幕提取?
│ └─ 是 → **HunyuanOCR**(唯一选择)
│
├─ 资源受限(边缘设备/高并发)?
│ └─ 是 → **PaddleOCR-VL-1.5** 或 **GLM-OCR**
│
├─ 研究探索/复杂布局理解?
│ └─ 是 → **DeepSeek-OCR-2**
│
└─ 默认推荐 → **PaddleOCR-VL-1.5**(综合最优)