首页
学习
活动
专区
圈层
工具
发布

OCR复杂推理评测新标准,OCR-Reasoning填补空白

始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在招募 | 新一期开源共创志愿者计划,欢迎加入共同成长。欢迎成为wisemodel算力平台用户,A800/H20等算力6.25元/卡时,支持在线微调训练,及在线部署和专属API服务。

在多模态推理模型快速发展的今天,数学推理(如MathVista,MathVerse,MathVison等)与学科知识推理(如MMMU)已有成熟评测基准。然而,涉及购买决策、财报解读、票据分析、路线规划等复杂OCR场景的推理能力却长期缺乏系统性评估标准。

针对这一空白,OCR-Reasoning基准应运而生,其核心亮点主要是:填补了OCR场景下复杂推理能力评估的空白;定义了系统化的评估流程,划分出六大推理能力,帮助研究者更好的理解模型在某方面能力的缺陷;为多模态推理模型的研发与优化提供了关键标尺和方向指引。

该基准包含1069道手工标注题目和1022张图片,覆盖空间推理、数值分析、枚举推理、数学推理、逻辑推理、多学科知识推理六大推理能力,且答案极少直接来自原文,需深度推理,现已上线始智AI-wisemodel开源社区,欢迎使用和体验。

数据集地址

https://wisemodel.cn/datasets/mxxin/OCR-Reasoning

01.

现有OCR评测的局限

当前OCR相关评测如DocVQA,TextVQA,InfographicVQA, OCRBench等基准主要聚焦于信息抽取任务(如实体识别、键值对提取),这类任务通常依赖“快思考”(Fast Thinking)即可解决,难以评估模型在以下场景所需的深度推理能力:在空间关系理解方面,无法有效考察模型对文字空间布局分析、元素关联判断的能力;在数值计算与分析领域,难以评判其对表格数据运算、图表趋势解读的水平;在逻辑推理与批判性思维层面,无法衡量基于图文信息进行演绎归纳得出结论的能力;在多学科知识应用场景下,难以评估手写物理、化学题目解答等能力。

02.

覆盖六大推理能力的基准

为系统评估OCR场景下的模型推理能力,研究者推出了OCR-Reasoning 基准,其核心亮点包括:

高质量数据集:

数据集包含1069 道手工精心标注的题目和1022张图片。在获取图片以后,标注人员根据图片设计对应的问题,设计好问题以后,有两种标注推理过程和答案的路径。第一条路径由Gemini-2.0-flash进行对推理过程和答案的标注。第二条路径由标注人员对推理过程和答案进行标注。

标注完成后,另外的标注人员对两条路径的标注结果进行质量评分,保留较高质量的标注版本。在获得了标注好的数据以后,标注人员会再对数据进行检查和纠正,最后获得标注好的数据。获得最终标注数据后,三名标注人员独立地将每条数据归类至六个预定义类别之一。最终的类别由三个标注人员之间的多数共识决定。

标注流程如图所示

六大推理能力全覆盖:

1. 空间推理:空间推理关注模型对文本与视觉元素之间空间关系,以及图文混排图像中布局元素进行推理的能力;

2. 数值分析:数值分析推理涉及对文字密集图像中数值变化的计算,包括成本效益购买决策、增长率估算、财务报告分析、日程规划以及数据解读等;

3.枚举推理:枚举推理专注于在文本丰富的图像中计数满足特定查询条件的文本和视觉元素;

4.数学推理:数学推理涉及在包含大量文字的图像中运用数学知识解决数学问题(例如函数图像、几何图像、统计等)。和现有数学数据对比:题目由标注人员手抄获取,极大提升OCR场景贴合度;

5. 逻辑推理:逻辑推理需要批判性思维,并通过提供的文本丰富的图像进行推论以得出结论。;

6.多学科知识推理:跨学科知识推理涉及应用跨领域知识(例如物理、化学)来解释文本丰富的图像中的文本和视觉元素。主要都是手抄的物理、化学题目。

强推理导向:

与现有的OCR相关的基准(答案多为图像原文)不同,OCR-Reasoning的答案极少直接来自原文,要求模型必须进行深度推理(如下图所示)。现有OCR相关的基准答案中大部分可直接复制原文,而OCR-Reasoning仅2.3%的答案可以从原文提取。

和现有数据集典型案例对比:

现有的基准中的任务:“发票中的总金额是多少?” 答案可直接通过读取图片中的文本获得。

OCR-Reasoning中的任务:“根据促销海报计算满3件打折后最低单价” 需整合价格、折扣规则、商品信息进行推理和计算。

03.

揭示模型现状与关键发现

研究团队对主流开源与闭源模型进行了全面评测,包括:

闭源模型:DouBao-1.5-Vision-Pro, O1, Claude-3.7;

开源模型:Qwen2.5-VL, Llama4-Scout, InternVL3, Kimi-VL-Thinking等;

基线方法:OCR识别结果+LLM(O3-mini和DeepSeek-R1)。

实验的结果如下表所示:

发现1: 视觉信息是OCR推理的命脉

在使用相同的语言模型 Qwen2.5-32B 作为基础模型的设置下,纯文本模型 DeepSeek-R1-Distill-Qwen-32B+OCR 的准确率为 26.5%,而多模态模型 Qwen2.5-VL-32B 的准确率则达到 36.2%,两者相差 9.7 个百分点。这表明图像输入对于文本丰富的图像推理任务至关重要。

发现2: 经过RL训练的开源多模态推理模型在OCR推理任务上仍需优化

VLAA-Thinker-Qwen2.5VL-7B 和 MM-Eureka-Qwen-7B 均基于 Qwen2.5-VL-7B 进行 RL 训练。训练后,模型的数学推理与逻辑推理能力显著提升,但空间推理和数值分析推理能力则有所下降。因此,如何设计适用于 OCR 推理任务的 RL 算法,是一个值得深入研究的方向。

发现3: 现有技术还有很大的进步空间

尽管Doubao-1.5-Vision-Pro在文本丰富图像理解任务中表现出色(例如DocVQA: 96.7%,InfoVQA: 89.3%,ChartQA: 87.4%),其文本丰富图像推理准确率仍低于50%,仅有46.8%。其他顶尖的商用多模态大模型例如OpenAI-o1和Gemini-2.0-flash模型也只是分别达到44.4%和39.3%的准确率。这些发现凸显了文本丰富图像推理任务的独特复杂性,特别是需要同步处理视觉文本信息、文本内容和逻辑推理

CoT对模型性能的影响

论文同时也测试了CoT对模型性能的影响,结果如下表所示。

对于大部分模型,思维链提示能持续提升其性能。比如,思维链提示分别使Qwen2.5-VL-32B的性能提升3.2%,GPT-4o提升4.2%。然而,在VL-Rethinker-7B模型上,思维链提示通常会导致性能下降。这一现象可能源于VL-Rethinker-7B内置的强制性反思机制。在推理阶段额外添加思维链提示会打破训练与测试条件的一致性,导致性能退化。

CoT对模型的推理路径进行评估

论文对闭源的多模态大模型的推理路径也进行了评估(论文采用了LLM as Judges的方式来对推理路径进行评估),结果如下表所示。

推理路径得分的排名与基于最终答案准确性的排名相似,除了Gemini和Claude-3.7-Sonnet这两个模型。具体而言,Gemini-2.0-Flash和Claude-3.7-Sonnet的高分主要归因于其比较高质量的推理过程。下面通过一个例子来说明这一点。

如下图所示,Gemini-2.0-Flash推理过程中出现的微小错误导致了最终答案错误,但整体推理过程仍基本合理。因此,大语言模型(LLM)对其问题推理路径仍然给予了相对较高的评分。

为方便社区使用,OCR-Reasoning 评测代码已集成至 VLMevalkit 工具包,支持研究者一键进行评估,极大提升效率。

OCR-Reasoning 基准的发布,填补了OCR场景下复杂推理能力评估的空白,为多模态推理模型的研发与优化提供了重要的评测依据和方向指引。其揭示的模型现状也表明,OCR推理仍是充满挑战的前沿领域,期待未来更多突破。

编辑:成蕴年

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OyjOFPBwY4SETlfFz46SW4-A0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券