前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >实测对比|法国 AI 独角兽公司发布的“最强 OCR”,实测效果如何?

实测对比|法国 AI 独角兽公司发布的“最强 OCR”,实测效果如何?

原创
作者头像
合合技术团队
发布于 2025-04-02 06:31:37
发布于 2025-04-02 06:31:37
2200
举报

3月上旬,法国一家AI独角兽公司进军OCR(光学字符识别)领域,发布了一个号称“全世界最好的OCR”产品,根据其技术团队的说明,这款OCR产品具备优秀的准确度和认知能力,能够理解文档的每个元素(包括文本、表格、公式等),从图像和PDF中提取内容信息。与当前市场或学术界其他文档解析工具一样,这款产品(下文中简称为“A产品”)旨在对AI难以直接识别的复杂文档进行解析处理,提升类似RAG等文档场景下的AI应用性能。

产品文档中介绍了它的几项优势:

  • 对复杂文档实现SOTA理解:擅长理解复杂的文档元素,包括交错图像、数学表达式、表格和LaTeX格式等高级布局。该模型可以更深入地理解丰富的文件,如带有图表、图形、公式和数字的科学论文。
  • 基准测试成绩第一:在严格的基准测试中始终优于其他领先的 OCR 模型,其在文档分析的多个方面都表现出色。
  • 支持原生多语言:能够解析、理解和转录各大洲的数千种脚本、字体和语言,便于服务来自不同语言背景的全球组织以及小众市场的超本地化企业。

A产品发布后,全球众多开发团队进行了试用并发布他们的评价。在多元化的使用场景下,A产品获得的评价也各有不同。如下图中的推文表示,在中文样本测试中,A产品的表现没有显著优势。也有AI团队认为,A产品超越了一些前沿LLM的OCR性能,但尚未完全为企业使用做好准备。

在实际生产环境中,A产品表现是否出色?它的中文文件处理性能与国内产品相较如何?

面对这些问题,TextIn测试团队进行了一次针对性测试,基于丰富的真实样本,全方面评测OCR产品能力。

测评指标

测评指标中分了6个维度,针对标题、段落、文本、阅读顺序、公式、表格进行定量测评。

指标

说明

标题F1

2 * (标题识别率 * 标题召回率) / (标题识别率 + 标题召回率)其中:标题识别率=标题匹配的个数(标题编辑距离小于0.2) / 预测出的总标题数标题召回率=标题匹配的个数(标题编辑距离小于0.2)/ 总的标题数

段落F1

2 * (段落识别率 * 段落召回率) / (段落识别率 + 段落召回率)

文本编辑距离

1-文本编辑距离(med)

版面阅读顺序

计算预测值和真值中,所有匹配段落的编辑距离

公式F1

2 * ( 公式识别率 * 公式召回率) / (公式识别率 + 公式召回率)

表格文本识别率

文本全对的表格个数(pred)/ 总表格个数(gt)

表格结构TEDS

所有表格树编辑距离分数之和(pred,不包含文字)/ 总表格数量(gt)

表格综合TEDS

所有表格树编辑距离分数之和(pred,包含文字)/ 总表格数量(gt)

测试数据集

本次测试基于实际生产环境中的多类型文件样本,包含PDF扫描文件、图像与电子文件,包含印刷、手写字体,语言以英语、中文为主,文件种类涵盖学术、商业、教育等场景,具体种类及数量如下图所示。

测试文件种类

样本数量

测试文件种类

样本数量

学术论文

20

企业招股招股书

20

金融年报

20

金融研报

20

招投标文件

20

英语手写文件

11

合同文件

20

K12试卷

14

电子书

20

国家标准文件

20

教育题库

20

中文专利文件

20

ESG报告

20

简历

20

少线表格

20

传统表格

20

银行承兑汇票

20

增值税发票

20

测试结论

测试团队对A产品与TextIn文档解析工具开展对比测试,各项指标测试结果如下图所示。

整体而言,TextIn文档解析在各项指标上表现良好,其中表格解析能力较为突出,公式识别相对一般;A产品在英文论文、英文PDF扫描文档等文件类型上识别效果较好,中文以及手写性能一般,整体技术能力在中文环境及商业文件复杂样本下存在薄弱项。

其中:

  • 表格识别存在缺陷,不支持合并单元格,对无线表无法正确识别;
  • 文本如果带旋转角度,识别错误比较严重,会出现明显幻觉;
  • 卡证票据、复杂背景、复杂版式(例如多栏文本)、手写等实际业务中常见场景下的文档识别效果一般。

具体案例

英语科学论文

原文件
原文件
A产品识别结果可视化
A产品识别结果可视化
TextIn识别结果可视化
TextIn识别结果可视化

如图中识别结果可见,对于英语科学论文样本,A产品和TextIn都可以正确识别标题与文本,其中A产品能完全准确解析复杂数学表达式,而TextIn解析的公式存在细微误差。

中文表单

原文件
原文件
A产品识别结果可视化
A产品识别结果可视化
TextIn识别结果可视化
TextIn识别结果可视化

对于中文少线表单,TextIn能够正确解析,A产品则无法识别表格结构。

英语表格

原文件
原文件
A产品识别结果可视化
A产品识别结果可视化
TextIn识别结果可视化
TextIn识别结果可视化

对于英语复杂表格,A产品出现乱码、合并单元格错误等问题,TextIn正确识别特殊符号与合并单元格,但两者都没有准确识别表格中的旋转字体。

中文手写样本

原文件
原文件
A产品识别结果可视化
A产品识别结果可视化
TextIn识别结果可视化
TextIn识别结果可视化

对于试卷样本,A产品和TextIn都能正确解析试卷中的印刷体,但无法保证较为模糊的手写字体完全正确,其中,TextIn能够识别部分手写字体,A产品则缺少手写解析结果。


通过实测对比,我们可以更清晰地评估国内外前沿文档解析产品的技术优劣势,便于用户完成技术选型。

👇欢迎后台私信小助手,免费开通在线测试。

⭐欢迎来交流群领取更多福利与大模型应用技术学习材料,与我们共同探讨技术发展与AI应用的可能性。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
真实场景文档理解:字节发布的WildDoc基准数据集向OCR提出了什么挑战?
最近,字节跳动团队联合华中科技大学发布的基准数据集 WildDoc 引起了对 OCR 能力的再衡量。WildDoc是首个专为评估自然环境中文档理解能力而设计的基准,它融合了一系列反映真实世界条件的人工捕获的文档图像,选取了 3 个常用的具有代表性的文档场景作为基准(Document/Chart/Table), 包含超过 12,000 张手动拍摄的图片,覆盖了环境、光照、视角、扭曲和拍摄效果等五个影响真实世界文档理解效果的因素。
合合技术团队
2025/06/11
220
真实场景文档理解:字节发布的WildDoc基准数据集向OCR提出了什么挑战?
从OCR到Document Parsing,AI时代的非结构化数据处理发生了什么改变?
在这个时代的每一天,无论是个人处理账单,还是企业处理合同、保险单、发票、报告或成堆的简历,我们都深陷在海量的非结构化数据之中。这类数据不像整齐排列的数据库表格那样规整,它们形态各异、格式自由,信息“藏”在复杂的文本、表格和布局里。
合合技术团队
2025/06/09
1550
从OCR到Document Parsing,AI时代的非结构化数据处理发生了什么改变?
所见即所得,赋能RAG:PDF解析里的段落识别
前几天,有一位用户使用OCR产品识别多栏论文后向我们询问:要怎么解决不合适的断句、分段以及错误阅读顺序的问题?
合合技术团队
2024/07/25
3580
所见即所得,赋能RAG:PDF解析里的段落识别
聊聊文档解析测评工具中表格指标
TextIn发布了文档解析测评工具,https://github.com/intsig/markdown_tester ,定量测评文档解析还原的效果。
TechLead
2024/07/26
2020
聊聊文档解析测评工具中表格指标
Coze扣子文档解析 VS. 专业OCR工具,RAG知识库性能评测!
在 AI 技术快速落地的当下,RAG 知识库作为AI应用的一个重要分支,正在逐渐改变我们处理信息的方式,成为实现智能问答、数据分析等场景的核心架构。通过将非结构化文档转化为可检索的知识单元,RAG 系统在医疗诊断辅助、金融报告解析、教育知识问答等领域展现出强大的应用价值,使AI输出兼具专业性与实时性。
合合技术团队
2025/05/21
1790
Coze扣子文档解析 VS. 专业OCR工具,RAG知识库性能评测!
OCR算法识别性能评估
评估OCR算法识别率的指标通常有这几种: one 全对准确率:每张图片版面上有多个文本时候,每个文本都对的张数占总的张数的比例; 标签全对准确率:每张图片版面上有多个文本时候,文本对的个数占总的文本个数的比例; 平均编辑距离:平均编辑距离越小说明识别率越高。平均编辑距离主要衡量整行或整篇文章的指标,可以同时反应识别错,漏识别和多识别的情况; 字符识别准确率,即识别对的字符数占总识别出来字符数的比例,可以反应识别错和多识别的情况,但无法反应漏识别的情况; 字符识别召回率,即识别对的字符数占实际字符数的比例,可
用户3578099
2020/11/03
6K0
破解PDF解析难题:RAG中高效解析复杂PDF的最佳选择
随着检索增强生成(RAG)技术的普及,从朴素 RAG 到高级 RAG,再到 GraphRAG 的快速演进,如微软的 GraphRAG 和 LightRAG 等框架不断涌现。这些框架提升了 RAG 的精度,但大多不支持 PDF 格式,而企业内部却存在大量 PDF 文档。因此,将这些资料有效整合进内部知识库成为技术挑战。
AgenticAI
2025/03/18
3150
破解PDF解析难题:RAG中高效解析复杂PDF的最佳选择
PDF解析,还能做得更好
随着大模型文档智能应用逐渐步入正轨,文档解析类产品成为其中重要的一环。文档解析工具能够“唤醒”沉睡在PDF文件中的知识,将其转化为机器能够识别、读取的信息,将可用数据从txt、csv格式扩展到大批量的电子档、扫描档文件,为数据处理、大模型训练、RAG系统开发提供优质的“燃料”。
合合技术团队
2024/08/01
2730
PDF解析,还能做得更好
TextIn文档树引擎,助力RAG知识库问答检索召回能力提升
TextIn团队的文档解析测评工具Markdown Tester在Github发布后,我们陆续与大家探讨了目前业内对PDF解析工作的评判标准与我们各项测评指标的设计原理,包括段落、表格、公式、阅读顺序等维度。
合合技术团队
2024/08/13
3040
TextIn文档树引擎,助力RAG知识库问答检索召回能力提升
以后再也不用肉眼测评解析产品了
在和用户交流的过程中,我们发现大家的需求非常多样,各有偏重:年报、财报、论文、政策文件、企业内部文件,或是教科书、试卷、公式,等等。
合合技术团队
2024/07/10
1390
以后再也不用肉眼测评解析产品了
文档解析效果全维度测评标准开源
今天向大家介绍一款全面展示文档解析产品能力的工具——TextIn文档解析测评工具,https://github.com/intsig/markdown_tester
TechLead
2024/07/26
3180
文档解析效果全维度测评标准开源
合合信息“TextIn大模型加速器 2.0”版本来了:文档解析和图表解析能力全面升级
在日常工作中,我们常常遇到无法直接复制的文档内容或图片内容,这些内容通常需要进行识别和解析。一个典型的例子是,当我们需要将折线图转化为表格数据时,手动操作既繁琐又容易出错。近期,我发现合合信息 TextIn 推出了全新解决方案——大模型加速器 2.0,专门解决这一问题。通过大规模预训练的基座模型,TextIn采用生成式学习方法,从图表的布局、线条、颜色、标记等多个维度进行深度建模。这样,它能够准确提取图表中的关键数据点、坐标轴信息、图例说明等内容,并将其转化为大模型能够理解的Markdown格式,在处理“柱形图+折线图”等复合式图表时,图表解析模块不仅能够精准解析不同类型图表的数据,还能够将这些图表数据还原为完整的Excel表格,进一步展示了文档解析引擎强大的“理解力”。
猫头虎
2025/03/28
1302
解析稳定率达99.99%!合合信息“大模型加速器2.0”助力AI打破“幻觉”
随着大模型在社会应用中逐渐普及,人们在享受便利的同时,也面临着“AI 幻觉”产生的风险。训练数据是影响大模型“认知能力”的关键要素,近期,上海合合信息科技股份有限公司(简称“合合信息”)TextIn“大模型加速器 2.0”版本正式上线,基于领先的智能文档处理技术,对复杂文档的版式、布局和元素进行精准解析及结构化处理,从数据源头降低大模型“幻觉”风险,让大模型在与人类的沟通中“更靠谱”。
合合技术团队
2025/03/21
1290
解析稳定率达99.99%!合合信息“大模型加速器2.0”助力AI打破“幻觉”
[1308]pdf转markdown
gptpdf 是一个利用VLLM解析PDF为Markdown的工具,几乎完美支持数学公式、表格等。
周小董
2024/11/24
7580
[1308]pdf转markdown
制造业中非结构化文档的自动解析和输入
在制造业中,处理大量文档(尤其是非结构化文档)是一项常见的挑战。这些文档通常采用 Word 或 PDF 等格式,包含各种产品类别和参数。手动提取这些信息并将其组织成 Excel 等结构化格式可能非常耗时且容易出错。智能文档处理(IDP) 解决方案可以在此发挥作用,显著提高效率和准确性。
Youna
2024/12/02
1440
OCR以后如何提升识别率
光学字符识别(OCR)技术用于将不同类型的文档(如扫描的纸张文档、PDF文件或图像)转换为可编辑和可搜索的数据。提升OCR识别率可以通过以下几种方法:
七条猫
2025/01/22
2650
美团的OCR方案介绍
近年来,移动互联、大数据等新技术飞速发展,倒逼传统行业向智能化、移动化的方向转型。随着运营集约化、数字化的逐渐铺开,尤其是以OCR识别、数据挖掘等为代表的人工智能技术逐渐深入业务场景,为用户带来持续的经济效益和品牌效应。图书情报领域作为提升公共服务的一个窗口,面临着新技术带来的冲击,必须加强管理创新,积极打造智能化的图书情报服务平台,满足读者的个性化需求。无论是高校图书馆还是公共图书馆,都需加强人工智能基础能力的建设,并与图书馆内部的信息化系统打通,优化图书馆传统的服务模式,提升读者的借阅体验。
机器学习AI算法工程
2021/10/14
1.8K0
美团的OCR方案介绍
文档解析之困 | 大模型时代,复杂文档解析如何更精准?
前不久,我们推出了腾讯云大模型知识引擎,最快只需5分钟,客户就能轻松搭建企业专属知识服务助手。作为一个知识引擎,首先就得看懂,且理解「海量知识」——特别是复杂多样的PDF、图片、表格等格式文件!
腾讯云AI
2024/10/18
1.5K0
文档解析之困 | 大模型时代,复杂文档解析如何更精准?
文档解析技术发展回顾与路径思考
随着全球数字化进程的加速,非结构化数据量呈现爆炸式增长,从纸质文档到电子文件的转变不仅意味着信息存储方式的革新,更标志着旧数据被赋予了新的生命力。文档智能技术的发展使得大量以传统形式保存的信息资源能够“活化”再利用,这些技术将图像、手写笔记等非结构化数据转化为计算机可处理和理解的结构化格式,从而极大地拓展了数据的应用场景。得益于深度学习算法的进步,文档解析技术在文档数字化、票据自动化处理、笔迹录入等多个领域取得了显著成就。例如,在金融行业,智能文档处理系统可以快速准确地识别并提取票据中的关键信息,大大提高了工作效率;在历史文献保护方面,先进的文档分析工具能够帮助学者们解读古老文本,为文化传承贡献力量。文档智能技术正以其高效便捷的特点,成为推动各行业数字化转型的重要力量。
合合技术团队
2024/12/25
2110
文档解析技术发展回顾与路径思考
加速文档解析与向量化技术:实现多模态大模型训练与应用
本文介绍了当前大型模型文档解析面临的问题,包括版面检测、阅读顺序还原、表格还原和公式识别等技术挑战。针对这些问题,介绍了TextIn文档解析技术和文字向量化技术的应用,以及TextIn平台的产品和服务。
默 语
2024/11/20
2460
加速文档解析与向量化技术:实现多模态大模型训练与应用
推荐阅读
相关推荐
真实场景文档理解:字节发布的WildDoc基准数据集向OCR提出了什么挑战?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档