Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >真实场景文档理解:字节发布的WildDoc基准数据集向OCR提出了什么挑战?

真实场景文档理解:字节发布的WildDoc基准数据集向OCR提出了什么挑战?

原创
作者头像
合合技术团队
发布于 2025-06-11 03:19:54
发布于 2025-06-11 03:19:54
9100
代码可运行
举报
运行总次数:0
代码可运行

最近,字节跳动团队联合华中科技大学发布的基准数据集 WildDoc 引起了对 OCR 能力的再衡量。WildDoc是首个专为评估自然环境中文档理解能力而设计的基准,它融合了一系列反映真实世界条件的人工捕获的文档图像,选取了 3 个常用的具有代表性的文档场景作为基准(Document/Chart/Table), 包含超过 12,000 张手动拍摄的图片,覆盖了环境、光照、视角、扭曲和拍摄效果等五个影响真实世界文档理解效果的因素。

根据字节团队的介绍,WildDoc 的采集开发主要针对文档理解领域现有的两个问题:

  • 脱离真实场景:现实中文档多为手机 / 相机拍摄的纸质文件或屏幕截图,面临光照不均、物理扭曲(褶皱 / 弯曲)、拍摄视角多变、模糊 / 阴影、对焦不准等复杂干扰;
  • 无法评估鲁棒性:现有基准未模拟真实环境的复杂性和多样性,导致模型在实际应用中表现存疑。

我们可以看一下 WildDoc 数据集中的样本示例:

为了全面评估现有模型,WildDoc 构建了一个新的鲁棒性指标:Consistency Score,用来评估模型是否能够始终如一地处理现实世界中的各种情况。研究团队对众多具有代表性的 MLLMs 进行了测试,实验发现主流 MLLMs 在 WildDoc 上性能显著下降,例如,GPT-4o 平均准确率下降 35.3%,揭示了现有模型在真实场景文档理解的性能瓶颈。

研究结果提出了几点发现:

  • 物理扭曲最具挑战性:皱纹、褶皱、弯曲等物理变形导致模型性能下降最显著,远超光照或视角变化的影响。
  • 非正面视角与图像质量:非正面拍摄(如倾斜视角)因文本形变和模糊导致性能下降,但屏幕捕获图像因数据增强算法成熟,性能下降较小。
  • 语言模型规模影响有限:大参数量模型在 WildDoc 上表现略优,但未完全克服真实场景挑战,表明模型架构需针对性优化。

为什么要关注自然场景文档解析?

在 AI 时代,文档解析技术已经广泛应用于扫描文档的文本识别。然而,当用户用手机拍摄真实环境中的文档时,往往会受到环境光照不均、视角倾斜、扭曲变形或拍摄抖动等因素的干扰,导致传统解析方法失效。WildDoc 所提出的也正是这个问题:对于这些“不完美”的输入,要怎么提升识别的准确性和鲁棒性?

解析技术在这一领域的进步,能显著提高日常效率,减少手动输入错误,并推动 AI 助手等智能应用。在移动设备普及的今天,自然场景下的扫描解析需求量仍在持续增加。

学习场景为例,在线下课堂上,学生用手机能够快速拍摄老师的板书或讲义,用于课后复习或共享,但现实情况下,教室光线不足、角度倾斜或手写潦草会导致图像模糊或扭曲,传统 OCR 难以识别。如果解析技术能克服这些因素,学生就能一键提取文本,生成可编辑笔记,提升学习效率。

工作办公时,这类情况也十分常见:大家在会议中拍摄白板或投屏上的草图或手写笔记,方便后续整理和协作。但环境因素如反光、视角偏移、摩尔纹或文档弯曲常使图像失真。高效的自然场景解析能自动校正并提取内容,取代手动整理,节省机械性劳动时间。

这些场景涉及了数十亿级的普通用户,关注自然场景文档解析不仅是技术演进的需求,更是让 AI 工具更贴近生活,释放更大的实用价值。

文档解析产品给出了什么样的答案?

面对自然环境图片可能会出现的页面弯曲、阴影遮挡、摩尔纹、图片模糊、字迹不清晰等等问题,当前文档解析工具主要采用图片预处理的方式,通过图像处理算法,最大程度上排除干扰状况,还原文字与版面信息。

图像预处理流程示例
图像预处理流程示例

以 TextIn xParse 为例,我们选取了 WildDoc 数据集中的部分有代表性的样本进行测试,来看一下识别结果:

样本原图
样本原图
预处理矫正结果与解析输出
预处理矫正结果与解析输出

如图样本有明显折叠干扰,图片预处理对其进行切边矫正,通过算法实现“展平”的效果,进一步完成正确解析。

样本原图
样本原图
预处理矫正结果与解析输出
预处理矫正结果与解析输出

上图为弯曲样本,同时光线较暗,解析结果需要正确识别文本与标题。

样本原图
样本原图
预处理矫正结果与解析输出
预处理矫正结果与解析输出

另一个典型的向内弯曲样本,且为表格信息,弯曲畸变易对表格识别与行列位置信息还原造成干扰,在经过图像处理算法矫正后,我们可以看到正确的表格还原。

使用说明:

1 在线使用

在 TextIn xParse 参数配置栏勾选【切边矫正】,提升拍摄角度不正或歪曲变形的照片的识别效果。

目前该功能已全面上线,限时免费开放使用。

2 API调用

步骤一:登录 TextIn 官网 TextIn - API 中心,获取 app-id 和 secret-code。

步骤二:调用官方示例代码。

步骤三:将下列切边矫正增强功能的参数集成到代码中,一键替代源代码中的 48-62 列。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
resp = textin.recognize_pdf2md(image, {
        'crop_enhance':1, # 切边矫正增强功能的控制参数
    })
result = json.loads(resp.text)
filepath = 'pdf2md_remove_watermark.md'
with open(filepath, 'w', encoding='utf-8') as f:
            f.write(result['result']['markdown'])

步骤四:运行最终替换好的代码并得到切边矫正后识别更精准的解析文件。


欢迎后台私信小助手,开通免费试用,来交流群与我们共同探讨技术发展与 AI 应用的可能性。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
中高考季,盘点AI文档工具有哪些实用的创新?
中高考甫落帷幕,今年的考生终于松一口气,而学校、老师们仍在紧锣密鼓地研究试题、评估考分。在人工智能的浪潮下,AI 押题、AI 判卷等应用纷纷各显神通,AI 文档工具成为一项学习利器,其中哪些创新具有实用、好用的特点呢?
合合技术团队
2025/06/18
1080
中高考季,盘点AI文档工具有哪些实用的创新?
文档图像矫正任务的前沿进展:引入Transformer框架、极坐标的思路
在《文档数字化采集与智能处理:图像弯曲矫正技术概述》一文中,我们介绍了文档图像矫正技术的发展沿革与代表性方案。随着文档智能处理的需求逐步升级,文档图像去畸变技术也在不断探索新的可能性。
合合技术团队
2025/01/22
1680
文档图像矫正任务的前沿进展:引入Transformer框架、极坐标的思路
你有一份待查收的 TextIn 文档解析内测邀请函!
近期,为便捷智能文档处理流程,TextIn文档解析推出内测版本,支持内置参数,完成去水印与切边矫正处理,有效提升解析准确率与输出结果质量。
合合技术团队
2025/01/13
1110
你有一份待查收的 TextIn 文档解析内测邀请函!
合合信息智能图像处理技术,让你的设备更智能
从20年开始,部分或者全部远程办公的企业渐渐多起来,wfh的打工人也在家添置了简易的必要办公设备,比如打印机。
合合技术团队
2024/12/04
1870
合合信息智能图像处理技术,让你的设备更智能
实测对比|法国 AI 独角兽公司发布的“最强 OCR”,实测效果如何?
3月上旬,法国一家AI独角兽公司进军OCR(光学字符识别)领域,发布了一个号称“全世界最好的OCR”产品,根据其技术团队的说明,这款OCR产品具备优秀的准确度和认知能力,能够理解文档的每个元素(包括文本、表格、公式等),从图像和PDF中提取内容信息。与当前市场或学术界其他文档解析工具一样,这款产品(下文中简称为“A产品”)旨在对AI难以直接识别的复杂文档进行解析处理,提升类似RAG等文档场景下的AI应用性能。
合合技术团队
2025/04/02
2610
实测对比|法国 AI 独角兽公司发布的“最强 OCR”,实测效果如何?
【AI落地应用实战】如何让扫描工具更会思考——智能高清滤镜2.0实战测评
在这个信息爆炸的数字化时代,扫描工具已经成为我们日常工作和学习中不可或缺的助手。最近,扫描全能王推出了革命性的“智能高清滤镜2.0”,本次更新后,智能高清滤镜能够智能识别并优化扫描过程中的各种问题。无论是光线不均、背景杂乱,还是文档本身的折痕和污渍,它都能一一化解,呈现清晰、准确的扫描结果。
中杯可乐多加冰
2024/06/28
2220
CCIG 2024:合合信息文档解析技术突破与应用前景
2024年5月24日-26日于西安召开中国图象图形大会(CCIG 2024),此次大会由中国图象图形学学会主办,空军军医大学、西安交通大学和西北工业大学承办,南京理工大学、陕西省图象图形学学会、陕西省生物医学工程学会协办,陕西省科学技术协会支持。包括于起峰院士、郑海荣院士、焦李成教授、王大轶研究员和虞晶怡教授在内的多位知名学者将作主旨报告,带来前沿的学术分享。大会期间将举办25场学术论坛、7场特色论坛和2场企业论坛,汇聚2000余名专家学者,构建开放创新、交叉融合的交流平台。
海拥
2024/05/31
2460
合合信息CCIG2022技术分享:文档图像质量增强是OCR进阶的重要研究方向
近期,2022中国图象图形大会(CCIG 2022)在成都圆满落幕。本次大会由中国科学技术协会指导,中国图象图形学学会主办,四川大学承办,电子科技大学协办,汇聚了潘云鹤院士、郑南宁院士、高文院士、戴琼海院士、王耀南院士、乔红院士等百余位国内知名学者,以及来自百度、华为、OPPO、合合信息等企业的技术专家,共话图像图形学术研究与技术创新趋势,共谋行业新发展,参会人数突破1500人。
合合技术团队
2022/08/24
7810
合合信息CCIG2022技术分享:文档图像质量增强是OCR进阶的重要研究方向
训练文本识别器,你可能需要这些数据集
我们知道,监督式深度学习非常依赖于带标签的数据集,通常数据集越大,训练出的模型效果越好,对于文本检测和识别也是如此,为了训练出好的模型,我们需要大型数据集。然而,为了收集真实世界的带标签的图片数据集非常难,为图片做标注非常耗时,代价昂贵,个人和小型企业无法承担。得益于互联网的开放性,我们可以得到许多大的公司和研究机构标注好的数据集,下面就简单汇总一下在文本检测和识别领域有哪些开放数据集。
云水木石
2019/07/01
4.7K0
训练文本识别器,你可能需要这些数据集
达观高翔:智能文档处理IDP关键技术与实践
什么是智能文档处理?针对文本数据处理尤其是纯文本,大家通常会想到使用自然语言处理(Natural language processing,NLP)技术来解决语义理解及分析处理工作。关于自然语言处理技术的研究有很长历史,针对不同层面文本处理和分析有很多技术点,常见技术例如分词与词性标注、命名实体识别、句法结构分析、文本分类、文本摘要等功能。
用户10103085
2022/11/03
2.1K0
达观高翔:智能文档处理IDP关键技术与实践
【图像处理技术】 | 黑科技解读 之 PS检测、弯曲拉平、切边增强、摩尔纹
图像处理技术 是用计算机对图像信息进行处理的技术。主要包括图像数字化、图像增强和复原、图像数据编码、图像分割和图像识别等。
呆呆敲代码的小Y
2022/11/02
2.5K0
【图像处理技术】 | 黑科技解读 之 PS检测、弯曲拉平、切边增强、摩尔纹
【光学字符识别】OCR 浅述
文字是信息的重要载体之一。通过书写、印刷、电子设备等方式,文字可以被记录下来并传递给他人。文字也是语言的重要组成部分,人们可以通过文字来表达自己的思想、感情和意图。在信息化时代,文字仍然是最基本、最重要的信息传递方式之一,也有着其不可替代的优势,如:简短明了、方便快捷、易于编辑、可归纳整理等。
青橙.
2023/08/25
9420
OG-HFYOLO:面向变形表格单元格的方向梯度引导与异构特征融合
表格结构识别是文档分析中的一项关键任务。然而,变形表格中的几何变形削弱了内容与结构信息之间的关联性,进而阻碍了下游任务准确提取内容的能力。为应对这一挑战,我们提出了用于细粒度单元格坐标定位的OG-HFYOLO模型。该模型整合了梯度方向感知提取器(Gradient-Orientation-Aware Extractor)以增强边缘检测,并引入异构核交叉融合(Heterogeneous Kernel Cross Fusion)模块来促进多尺度特征学习,从而提高特征表达的准确性。结合用于在训练过程中更好地适应尺度特征的尺度感知损失函数(Scale-aware Loss function),以及用掩模驱动的非极大值抑制(mask-driven non-maximal suppression)取代传统的边界框抑制后处理,该模型实现了精细的特征表示和卓越的定位性能。为解决细粒度变形表格单元格定位的数据集限制问题,我们进一步提出了一个数据生成器,并构建了大规模的变形有线表格(Deformation Wired Table,DWTAL)数据集。实验表明,在DWTAL数据集上,OG-HFYOLO相较于所有主流实例分割模型,实现了更优的分割精度。该数据集和源代码已开源:https://github.com/justliulong/OGHFYOLO。
AI浩
2025/06/13
1510
OG-HFYOLO:面向变形表格单元格的方向梯度引导与异构特征融合
OCR技术浅析
本文介绍了OCR(光学字符识别)技术的基本概念、发展历程、主要应用领域,以及基于深度学习的OCR识别框架。与传统OCR相比,基于深度学习的OCR识别框架减少了三个步骤,降低了因误差累积对最终识别结果的影响。
企鹅号小编
2017/12/28
9.8K0
OCR技术浅析
达观陈运文:OCR技术发展综述与达观数据的实践经验
光学字符识别OCR技术(Optical Character Recognition)是指从图像中自动提取文字信息的技术。这项技术横跨了人工智能里的两大领域:CV(计算机视觉)和NLP(自然语言处理),综合使用了这两大领域中的很多技术成果。
用户10103085
2022/10/12
1.1K0
达观陈运文:OCR技术发展综述与达观数据的实践经验
Aster:具有柔性矫正功能的注意力机制场景文本识别方法
DeepAction八期飞跃计划还剩12个名额,联系小编,获取你的专属算法工程师学习计划(联系小编SIGAI_NO1)
SIGAI学习与实践平台
2019/08/09
3.3K0
Coze扣子文档解析 VS. 专业OCR工具,RAG知识库性能评测!
在 AI 技术快速落地的当下,RAG 知识库作为AI应用的一个重要分支,正在逐渐改变我们处理信息的方式,成为实现智能问答、数据分析等场景的核心架构。通过将非结构化文档转化为可检索的知识单元,RAG 系统在医疗诊断辅助、金融报告解析、教育知识问答等领域展现出强大的应用价值,使AI输出兼具专业性与实时性。
合合技术团队
2025/05/21
2910
Coze扣子文档解析 VS. 专业OCR工具,RAG知识库性能评测!
AI 最佳实践|用腾讯云智能文本图像增强打造一个掌上扫描仪
在日常生活、工作中, 受限于拍照技术、拍摄条件等制约,得到的文本图像往往存在光照不均、角度倾斜、文字模糊等情况。这种低质量的文本图像不仅不利于保存和后续研究,也不利于光学字符识别。为了解决以上问题,特别调研了业内相关的产品,发现腾讯云AI的文本图像增强能力可以很好的打造一个掌上扫描仪。
腾讯云AI
2023/04/26
1.8K0
AI 最佳实践|用腾讯云智能文本图像增强打造一个掌上扫描仪
多模态大模型「卷」向智能文档,只为解放打工人的双手
文档是重要的信息存储载体之一,人们每天接触和使用文档的频率也越来越高。相对应地,用户对文档处理和图像内容的安全要求逐渐提升,智能文档技术面临的挑战也更大。
AI科技评论
2023/08/08
8330
多模态大模型「卷」向智能文档,只为解放打工人的双手
大模型时代下智能文档处理核心技术大揭秘
随着人工智能技术的发展,智能图像处理成为了一种风靡全球的热门技术。智能图像处理可以帮助我们从大量的图像数据中提取最有价值的信息,为医疗、军事、安防等领域带来了重大的贡献。然而,图像处理的难点也随之而来,下面我们来简单介绍一下图像处理的难点以及解决方式的比对。
机器学习AI算法工程
2023/11/22
6610
大模型时代下智能文档处理核心技术大揭秘
推荐阅读
相关推荐
中高考季,盘点AI文档工具有哪些实用的创新?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验