Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >常用的表格检测识别方法-表格内容识别方法

常用的表格检测识别方法-表格内容识别方法

原创
作者头像
合合技术团队
发布于 2023-06-12 01:51:03
发布于 2023-06-12 01:51:03
1.3K0
举报

常用的表格检测识别方法

3.3 表格内容识别方法

表格识别的研究主要涉及两个方面,一方面是对单元格内的文本进行识别,这一步通常是在确定单元格区域后,利用较为稳定的光学字符识别方法(OCR)来实现,这一方面不是表格识别研究的重点,不在此展开;另一方面是基于整个表格内容进行的表格分类、单元格分类、以及表格信息抽取等任务,这是当前表格识别研究的热门领域之一。下文会对表格信息抽取进行展开讲述。

从文档中抽取关键信息已经被研究了几十年。在基于深度学习的方法出现之前,早期的工作主要依赖于已知模板中的一些规则或人为设计的特性,因此它们通常在没见过的模板上失败,在实际应用中不可适配。随着深度学习的发展,在信息抽取领域取得了重大进展。

如上所述,大多数基于深度学习的方法将信息抽取定义为一个token分类问题。除了上述工作外,M. Carbonell还提出了一种基于CNN的方法,即从输入的文档图像中联合进行手写文本检测、转录和命名实体识别。除了这个范式之外,信息抽取也可以作为其他问题来表述。Majumder等人提出了一种利用先验知识提取关键领域值的方法。对于每个字段,首先选择一些候选词。然后,将每个单词的结构嵌入其上下文信息,计算该嵌入与目标域嵌入之间的余弦相似值作为相似度得分。

SPADE(SPAtial DEpendency parser)[W. Hwang等人] 将信息抽取定义为一个空间依赖性解析问题。它构建了一个以文本段和字段作为图节点的依赖图,然后使用解码器从识别的图节点之间的连通性中提取字段值。BROS(BERT Relying On Spatiality)[Hong等人] 通过提出了一种新的位置编码方法和一种基于区域掩蔽的预训练目标,进一步改进了SPADE。另一类方法[R. B. Palm等人,H. Guo等人,C. Sage等人]采用在其他NLP或图像理解任务中使用的序列到序列模型,直接预测关键字段的所有值,而不需要字符监督。

Xiao等人构建了一个具有句子嵌入的二维文本嵌入图,并将该文本图和视觉特征与全卷积网络相结合,用于表格、章节标题、标题、段落等图像区域的像素级分割。Raphael等人提出了一种多模态神经模型,通过将一个二维文本嵌入到CNN模型的中间层,以便在历史报纸上进行更细粒度的分割任务。

还有一些研究人员认为,文档的图像特征非常有用,因为图像特征是字体、字形、颜色等的混合表示。由于信息抽取任务涉及文档图像,一些研究人员将其视为一项纯粹的计算机视觉任务。这些方法从光学字符识别(OCR)的角度解决了信息抽取任务。对于每一种类型的实体,这些方法设计了相应的解码器,负责识别文本内容并确定其类别。由于缺乏语义特征,这种方法在面对复杂的布局时不能很好地工作。

研究人员从不同的角度探讨了信息抽取任务。Hwang等人和Jiang等人基于坐标信息序列化文本片段,并将坐标输入到序列标记器。然而,简单地将该位置视为某种特征,可能不能充分利用文本之间的视觉关系。为了充分利用语义特征和位置信息,Chargrid [Katti等人]将字符映射到一个热向量上,从而填充文档图像上的字符区域。将带有语义信息的图像输入CNN进行检测,并进行语义分割,提取实体。后来的BERTgrid [Denk和Reisswig等人]采用了类似的方法,但使用了不同的单词嵌入方法。然而,它通过使用通道特性来表示语义,引入了大量的计算,特别是具有大类别的语言。

因此,以语义特征作为节点特征,以文本片段的空间位置特征作为边缘特征,构建全局文档图通常是一种更好的解决方案。另外几种方法[Qian等人,Liu等人,Yu等人,Gal等人,Cheng等人]使用GNN对文档的布局信息进行建模。通过节点之间传递的消息,这些模型可以学习每个文本的总体布局和分布,这有助于后续的实体提取。例如,Gui 等人提出了一种基于词汇的图神经网络,将中文NER(命名实体识别)视为节点分类任务。此外,GraphIE [Qian等人]和Liu等人提出的模型通过GNN提取视觉特征,增强BiLSTM-CRF模型的输入,被证明是有效的。与全连接或手工制作的图不同,PICK [Yu等人]通过图学习预测了节点之间的连接,这也提高了结果。这些方法使用GNN编码文本嵌入,给定视觉上丰富的上下文,以隐式地学习键-值关系。

表格信息抽取方面,国外的研究者在基于序列的方法上比较突出,提出了LAMBERT,TILT等一批优秀的模型,这与国外长期积累的语言模型发展经验有关,在基于二维特征网格的方法上国外也有较早的探索,提出了Chargrid和BERTgrid等经典模型,而对于基于图的方法研究较少;而国内的研究者在基于图和基于二维特征网格的方法上有着世界领先的水平,PICK,MatchVIE和ViBERTGrid等方法在各种信息抽取任务上名列前茅。总的来说,近年来国内外研究者对表格内容识别都非常关注,这一领域的方法也呈现出多元化发展的态势。

参考文献:

Gao L C, Li Y B, Du L, Zhang X P, Zhu Z Y, Lu N, Jin L W, Huang Y S, Tang Z . 2022. A survey on table recognition technology. Journal of Image and Graphics, 27(6): 1898-1917.

M Kasem , A Abdallah, A Berendeyev,E Elkady , M Abdalla, M Mahmouda, M Hamada, D Nurseitovd, I Taj-Eddin. Deep learning for table detection and structure recognition: A survey. arXiv:2211.08469v1 [cs.CV] 15 Nov 2022

Lin W, Gao Q, Sun L, Zhong Z, Hu K and Ren Q.2021.Vibertgrid: a jointly trained multi-modal 2d document representation for key information extraction from documents.2021 International Conference on Document Analysis and Recognition (ICDAR), pp.548-563

Tang G, Xie L, Jin L, Wang J, Chen J, Xu Z, Wang Q, Wu Y, Li H.2021.MatchVIE: Exploiting Match Relevancy between Entities for Visual Information Extraction.[arXiv: 2106.12940]

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
表格识别技术:连接物理世界文档与数字世界数据的桥梁
在信息爆炸的时代,大量有价值的数据并非存储于结构化的数据库中,而是隐藏在成千上万的文档、报告和票据的表格里。从金融报表到医疗档案,从物流单据到学术论文,表格是承载结构化信息的核心载体。如何高效、准确地将这些非结构化的表格图像转化为可编辑、可分析的结构化数据,正是表格识别(Table Recognition)技术的用武之地。它不仅是一项技术革新,更是一场提升各行各业智能化水平的效率革命。
中科逸视OCR专家
2025/08/22
3380
表格识别技术:连接物理世界文档与数字世界数据的桥梁
常用的表格检测识别方法——表格结构识别方法(上)
表格结构识别是表格区域检测之后的任务,其目标是识别出表格的布局结构、层次结构等,将表格视觉信息转换成可重建表格的结构描述信息。这些表格结构描述信息包括:单元格的具体位置、单元格之间的关系、单元格的行列位置等。
合合技术团队
2023/05/24
2.2K0
常用的表格检测识别方法——表格结构识别方法(上)
常用的表格检测识别方法-表格区域检测方法(上)
表格检测识别一般分为三个子任务:表格区域检测、表格结构识别和表格内容识别。本章将围绕这三个表格识别子任务,从传统方法、深度学习方法等方面,综述该领域国内国外的发展历史和最新进展,并提供几个先进的模型方法。
合合技术团队
2023/05/18
2.2K0
常用的表格检测识别方法-表格区域检测方法(上)
常用的表格检测识别方法——表格结构识别方法 (下)
表格结构识别是表格区域检测之后的任务,其目标是识别出表格的布局结构、层次结构等,将表格视觉信息转换成可重建表格的结构描述信息。这些表格结构描述信息包括:单元格的具体位置、单元格之间的关系、单元格的行列位置等。在当前的研究中,表格结构信息主要包括以下两类描述形式:1)单元格的列表(包含每个单元格的位置、单元格 的行列信息、单元格的内容);2)HTML代码或Latex代码(包含单元格的位置信息,有些也会包含单元格的内容)。
合合技术团队
2023/06/01
4.5K0
常用的表格检测识别方法——表格结构识别方法 (下)
基于GNN的图表示学习及其应用
本文内容分两部分,第一部分为基于 GNN 的图表示学习,共包含两节,第1节主要从三种建模方法上对图表示学习进行对比阐述;第2节分别从两类无监督学习目标——重构损失与对比损失,对基于 GNN 的无监督表示学习进行阐述。第二部分为GNN的相关应用介绍,主要为3D视觉、基于社交网络的推荐系统和视觉推理的介绍。
Coggle数据科学
2020/03/17
1.3K0
基于GNN的图表示学习及其应用
ICDAR 2019表格识别论文与竞赛综述(上)
表格作为一种有效的数据组织与展现方法被广泛应用,也成为各类文档中常见的页面对象。随着文档数目的爆炸性增长,如何高效地从文档中找到表格并获取内容与结构信息即表格识别,成为了一个亟待解决的问题。ICDAR是一个专注于文档分析与识别问题的国际学术会议,已经连续多届设置了表格识别专题。在今年的ICDAR 2019会议上,有不少研究者在表格检测与结构识别等领域做出了新的贡献,使其有了新的进展。本课题组梳理了该会议中有关表格识别的16篇论文,总结该领域当前的研究进展与挑战。同时,值得注意的是,该会议也举办了关于表格检测与结构识别的比赛,我们对参赛队伍使用的方法与结果进行了一些讨论。
AI算法与图像处理
2019/11/29
7K0
【技术白皮书】第三章:文字表格信息抽取模型介绍——实体抽取方法:NER模型(上)
深度学习是一个由多个处理层组成的机器学习领域,用于学习具有多个抽象层次的数据表示。典型的层次是人工神经网络,由前向传递和后向传递组成。正向传递计算来自前一层的输入的加权和,并通过非线性函数传递结果。向后传递是通过导数链规则计算目标函数相对于多层模块堆栈权重的梯度。深度学习的关键优势在于表示学习的能力以及向量表示和神经处理赋予的语义合成能力。这允许机器输入原始数据,并自动发现分类或检测所需的潜在表示和处理。
合合技术团队
2022/08/17
1.5K0
【技术白皮书】第三章:文字表格信息抽取模型介绍——实体抽取方法:NER模型(上)
深度学习应用篇-计算机视觉-OCR光学字符识别[7]:OCR综述、常用CRNN识别方法、DBNet、CTPN检测方法等、评估指标、应用场景
OCR(Optical Character Recognition,光学字符识别)是指对图像进行分析识别处理,获取文字和版面信息的过程,是典型的计算机视觉任务,通常由文本检测和文本识别两个子任务构成。
汀丶人工智能
2023/06/11
3.8K0
深度学习应用篇-计算机视觉-OCR光学字符识别[7]:OCR综述、常用CRNN识别方法、DBNet、CTPN检测方法等、评估指标、应用场景
基于深度学习的表格检测与识别技术优势
是信息高度精炼集中,方便信息的检索和比较。表格被广泛用于表示结构和功能信息,它们出现在不同种类的文献中,包括报纸、研究论文和科学文件等。表格使读者能够快速地比较、分析和理解文件中出现的事实。表格识别的目的是获取图像中的表格并访问其数据,是文档分析与识别领域的一个重要分支。
合合技术团队
2023/02/21
1K0
一个基于序列的弱监督视觉信息抽取学习框架
视觉信息提取(VIE)近年来受到了越来越多的关注。现有的方法通常首先将光学字符识别(OCR)结果组织成纯文本,然后利用标记级实体注释作为监督来训练序列标记模型。但是,它花费大量的注释成本,可能导致标签混淆,OCR错误也会显著影响最终性能。在本文中,作者提出了一个统一的弱监督学习框架,称为TCPN(标签、复制或预测网络),它引入了1)一种有效的编码器,可以同时对二维OCR结果中的语义和布局信息进行建模;2)仅利用关键信息序列作为监督的弱监督训练策略;和3)一个灵活和可转换的解码器,其中包含两种推理模式:一种(复制或预测模式)是通过复制输入或预测一个标记来输出不同类别的关键信息序列,另一种(标记模式)是直接标记输入序列。本方法在几个公共基准上显示了最新的性能,充分证明了其有效性。
合合技术团队
2023/03/21
5550
一个基于序列的弱监督视觉信息抽取学习框架
炸裂!PDF 转 Word 彻底告别收费时代,这款 OCR 开源神器要逆天!
随着企业数字化进程不断加速,PDF 转 Word 的功能、纸质文本的电子化存储、文件复原与二次编辑、信息检索等应用都有着强烈的企业需求。目前市面上已有一些软件,但普遍需要繁琐的安装注册操作,大多还存在额度限制。此外,最终转换效果也依赖于版面形态,无法做到针对性适配。针对社区开发者迫切的需求,飞桨社区开发者吴泓晋(GitHubID:whjdark)基于最新发布的PP-StructureV2智能文档分析系统,开发了一款PDF转Word软件,导入PDF文件可一键转换为可编辑Word,支持文字、表格、标题、图片的完整恢复,实现PDF编辑自由!
GitHubDaily
2022/11/01
6.6K1
炸裂!PDF 转 Word 彻底告别收费时代,这款 OCR 开源神器要逆天!
TSRFormer:复杂场景的表格结构识别新利器
大数据文摘转载自微软研究院AI头条 近年来,各大企业和组织机构都在经历数字化转型。将文档转换成计算机所能识别的样态,是数字化转型的关键步骤,如何识别出图片中表格具体的结构与内容,并直接提取其中的数据和信息是学术界和工业界共同瞩目的焦点。然而,目前的表格识别算法多用于识别横平竖直的表格,对于全无边界和实线的表格、行列之间存在大片空白区域的表格等日常生活中常见的表格还没有较好的解决方案,对于拍摄角度倾斜而表格边框弯曲等情况更是束手无策。 今天我们将为大家介绍微软亚洲研究院在表格结构识别方向的最新进展,研究员们提
大数据文摘
2023/04/10
2.3K1
TSRFormer:复杂场景的表格结构识别新利器
【技术白皮书】第三章 - 2 :关系抽取的方法
由于传统机器学习的关系抽取方法选择的特征向量依赖于人工完成,也需要大量领域专业知识,而深度学习的关系抽取方法通过训练大量数据自动获得模型,不需要人工提取特征。2006年Hinton 等人(《Reducing the dimensionality of data with neural networks》)首次正式提出深度学习的概念。深度学习经过多年的发展,逐渐被研究者应用在实体关系抽取方面。目前,研究者大多对基于有监督和远程监督2种深度学习的关系抽取方法进行深入研究。此外,预训练模型Bert(bidirectional encoder representation from transformers)自2018年提出以来就备受关注,广泛应用于命名实体识别、关系抽取等多个领域。
合合技术团队
2022/08/23
2.4K0
【文本检测与识别白皮书-3.2】第一节:基于分割的场景文本识别方法
基于分割的识别算法是自然场景文本识别算法的一个重要分支(Wang 等,2012;Bissacco 等,2013;Jaderberg 等,2014),通常包括3 个步骤:图像预处理、单字符分割和单字符识别。基于分割的自然场景文本识别算法通常需要定位出输入文本图像中包含的每个字符的所在位置,通过单字符识别器识别出每一个字符,然后将所有的字符组合成字符串序列,得到最终的识别结果。
合合技术团队
2022/10/26
9420
【文本检测与识别白皮书-3.2】第一节:基于分割的场景文本识别方法
FOTS:端到端的文本检测与识别方法的理论与应用
目前的主流算法也可以分成单阶段和两阶段两大类两阶段的方法都是基于目标检测和实例分割中常用的算法Faster R-CNN 和Mask R-CNN。Li 等人(2017a)提出了第1个基于深度学习的端到端自然场景文本检测和识别算法,该方法基于Faster R-CNN 进行检测,将通过RoI-Pooling 提取的共享特征送入基于注意力机制(Attention)的识别器进行文本识别,但该方法只能检测识别水平方向的文本。Lyu 等人(2018b) 基于Mask R-CNN 提出了MaskTextSpotter,该方法在RoI-Align 之后额外增加了一个单字实例分割的分支,对文本的识别也是依赖于该分支的单字符分类。
合合技术团队
2022/11/04
1.3K0
FOTS:端到端的文本检测与识别方法的理论与应用
【文本检测与识别白皮书-3.2】第二节:基于CTC的无需分割的场景文本识别方法&基于注意力机制的无需分割的场景文本识别方法
时序连接序列(CTC)算法早期由Graves等人(2016)提出,用以训练循环神经网络(Cho 等,2014;Hochreiter 和Schmidhuber,1997),并直接标记未分割的特征序列。CTC 算法在多个领域均证明了它的优异性能,例如语音识别(Graves 等,2013;Graves 和Jaitly,2014)和联机手写文本识别(Graves等,2009;Graves,2012)。
合合技术团队
2022/10/31
7810
【文本检测与识别白皮书-3.2】第二节:基于CTC的无需分割的场景文本识别方法&基于注意力机制的无需分割的场景文本识别方法
[万字综述] 21年最新最全Graph Learning算法,建议收藏慢慢看
今天小编给大家带来了一篇极全的2021最新图学习算法综述。该综述不仅囊括了目前热门的基于深度学习的图学习方法,还全面介绍了其它三个大类:基于图信号处理的方法、基于矩阵分解的方法、基于随机游走的方法。因此能带领大家从更多的维度认识网络表示学习。作者还概述了这四类图学习方法在文本、图像、科学、知识图谱和组合优化等领域的应用,讨论了图学习领域的一些未来研究方向。该综述对于帮助我们全面回顾图学习方法以及精准把控其未来研究方向具有巨大意义。
Houye
2021/05/31
3.4K0
[万字综述] 21年最新最全Graph Learning算法,建议收藏慢慢看
ICDAR 2019表格识别论文与竞赛综述(下)
在表格识别领域,数据集规模一直是一个有待解决的问题。此前在表格识别或版面分析领域中,规模较大的数据集包括Marmot和ICDAR2017 POD竞赛数据集,也仅仅包含数千张文档页面图像而已,这对于数据驱动的深度学习方法来说是不够的,导致训练出的模型并没有有足够说服力的泛化能力和鲁棒性。所以在最近的工作中,也有不少学者针对表格识别领域发布了一些数据集,此次ICDAR2019会议中也不例外。
AI算法与图像处理
2019/11/29
4.3K0
开启智能时代:深度解析智能文档分析技术的前沿与应用
本章主要介绍文档分析技术的理论知识,包括背景介绍、算法分类和对应思路。通过本文学习,你可以掌握:1. 版面分析的分类和典型思想 2. 表格识别的分类和典型思想 3. 信息提取的分类和典型思想。
汀丶人工智能
2023/10/11
2K0
开启智能时代:深度解析智能文档分析技术的前沿与应用
图机器学习(GML)&图神经网络(GNN)原理和代码实现(前置学习系列二)
项目链接:https://aistudio.baidu.com/aistudio/projectdetail/4990947?contributionType=1 文章篇幅有限,部分程序出图不一一展示
汀丶人工智能
2022/12/21
2.1K0
图机器学习(GML)&图神经网络(GNN)原理和代码实现(前置学习系列二)
推荐阅读
表格识别技术:连接物理世界文档与数字世界数据的桥梁
3380
常用的表格检测识别方法——表格结构识别方法(上)
2.2K0
常用的表格检测识别方法-表格区域检测方法(上)
2.2K0
常用的表格检测识别方法——表格结构识别方法 (下)
4.5K0
基于GNN的图表示学习及其应用
1.3K0
ICDAR 2019表格识别论文与竞赛综述(上)
7K0
【技术白皮书】第三章:文字表格信息抽取模型介绍——实体抽取方法:NER模型(上)
1.5K0
深度学习应用篇-计算机视觉-OCR光学字符识别[7]:OCR综述、常用CRNN识别方法、DBNet、CTPN检测方法等、评估指标、应用场景
3.8K0
基于深度学习的表格检测与识别技术优势
1K0
一个基于序列的弱监督视觉信息抽取学习框架
5550
炸裂!PDF 转 Word 彻底告别收费时代,这款 OCR 开源神器要逆天!
6.6K1
TSRFormer:复杂场景的表格结构识别新利器
2.3K1
【技术白皮书】第三章 - 2 :关系抽取的方法
2.4K0
【文本检测与识别白皮书-3.2】第一节:基于分割的场景文本识别方法
9420
FOTS:端到端的文本检测与识别方法的理论与应用
1.3K0
【文本检测与识别白皮书-3.2】第二节:基于CTC的无需分割的场景文本识别方法&基于注意力机制的无需分割的场景文本识别方法
7810
[万字综述] 21年最新最全Graph Learning算法,建议收藏慢慢看
3.4K0
ICDAR 2019表格识别论文与竞赛综述(下)
4.3K0
开启智能时代:深度解析智能文档分析技术的前沿与应用
2K0
图机器学习(GML)&图神经网络(GNN)原理和代码实现(前置学习系列二)
2.1K0
相关推荐
表格识别技术:连接物理世界文档与数字世界数据的桥梁
更多 >
领券
社区新版编辑器体验调研
诚挚邀请您参与本次调研,分享您的真实使用感受与建议。您的反馈至关重要,感谢您的支持与参与!
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
首页
学习
活动
专区
圈层
工具
MCP广场
首页
学习
活动
专区
圈层
工具
MCP广场