Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >AIGC席卷智慧办公,金山办公如何架构文档智能识别与理解的通用引擎?

AIGC席卷智慧办公,金山办公如何架构文档智能识别与理解的通用引擎?

作者头像
AI科技大本营
发布于 2023-04-10 09:40:38
发布于 2023-04-10 09:40:38
2.5K0
举报

如今,智慧办公是企业办公领域数字化转型的题中之义。作为国内最早开发的软件办公系统之一,金山办公如何应用深度学习实现复杂场景文档图像识别和技术理解?本文将从复杂场景文档的识别与转化、非文本元素检测与文字识别、文本识别中的技术难点等多个方面进行深度解析。

作者 | 金山办公CV技术团队

出品 | 新程序员

在办公场景中,文档类型图像被广泛使用,比如证件、发票、合同、保险单、扫描书籍、拍摄的表格等,这类图像包含了大量的纯文本信息,还包含有表格、图片、印章、手写、公式等复杂的版面布局和结构信息。早前这些信息均采用人工来处理,需要耗费大量人力,很大程度上阻碍了企业的办公效率。

基于深度学习的复杂场景文档图像识别和理解技术的出现,将从繁杂的文档处理任务中解放大量人力,具有极高的应用价值。近些年,OCR(Optical Character Recignition,光学字符识别)技术在实际生活中已经广泛应用,清晰且平整的页面OCR均已达到理想的识别水平,但是当扫描的文档图像本身质量不佳(由拍摄光线不充分、抖动、背景干扰较大等引起),OCR结果往往不理想,加之复杂文档图像的语义结构不仅与文档内容有关,还与版面信息、视觉特征有关(如字形、版面、空间位置等)。因此,复杂场景文档图像识别和理解仍是一项充满挑战又前景广阔的研究。

复杂场景文档的识别与转化

近年来,国内很多专注于办公或文档处理领域的公司,在文档领域都有着不同程度的技术积累,对文档格式、排版和版面分析领域都有着各自的理解和思考。以金山办公为例,自2017年组建AI中台后,在文档内容和版式分析领域进行了传统技术积累和AI技术的结合,并在文档识别和理解领域做出了诸多成果,这些成果在一系列办公软件产品(如WPS、金山文档等)和功能上,发挥着重要作用。

在办公场景下,用户经常需要把PDF转成Word文档,或者把某一个截图里的文字提取出来,甚至有时候需要把一个拍摄出来的表格进行还原,以节省打字或者排版消耗的时间。以上的使用场景需要软件对文档图像进行文档对象识别、判断各区域所属类别,并对不同类型的区域进行分割,从中提炼关键性内容,例如文字、表格、段落关系、文字属性等对象,并针对各类对象进行识别、抽取和关系组织,最终进行结构化存储(例如输出xml、标准件PDF、docx、HTML等)。

为了实现以上提及的需求,需要做到的技术关键点是对图像的识别与对图像的理解。金山办公在通用引擎设计上构建了图像识别与理解的六大核心模块,引擎架构图如图1所示:

图1  文档图像识别与理解通用引擎架构图

文档图像识别包括图像的处理与图像的分析,图像处理是利用计算机对图像进行去除噪声、增强、复原、分割、特征提取、识别等处理的理论、方法和技术。狭义的图像处理主要是对图像进行各种加工,以改变图像的视觉效果并为自动识别奠定基础,或对图像进行压缩编码以减少所需存储空间。图像分析是对图像中感兴趣的目标进行检测和测量,以获得他们的客观信息,从而建立对图像的描述。

受制于文档图像不同的来源,导致文档图像本身由于拍摄光线、抖动、背景干扰、传输过程中的压缩等情况,文档图像可能存在质量较低的问题。为了提升图像识别能力,需要对这些质量较低的场景做针对性的处理,例如去阴影、去摩尔纹、画质提升、去水印、色彩调节(亮度、对比度、色彩等)、页面矫正等。下面列举带水印和带摩尔纹场景下采用的深度学习算法的处理方法。

文档图像中带水印的图片很常见,水印的干扰对文本的检测与识别带来一定程度的影响,所以在前处理时会采用类似于UNet的分割方案去除水印。

对屏幕拍摄图像时,相机传感器色彩滤波阵列与屏幕的亚像素混叠造成干扰,形成摩尔纹。摩尔纹一定程度对图像识别带来影响,通过去摩尔纹算法处理带摩尔纹图像后,能提升图像的识别能力。目前大多数方法都难以在4K图像中以更广泛的尺度范围去除摩尔纹模式。现有方法提出了一个语义对齐的规模感知模块,该模块集成了一个金字塔上下文提取模块,以有效和高效地提取在同一语义级别上对齐的多尺度特征。

非文本元素检测与文字识别

对于文档图像分析而言,非文本元素(包含图片、表格、印章、流程图、公式、手写体、色块等)具有重要意义。主流的非文本元素检测方案一般选择使用目标检测方案,目标检测可根据其实现方法分为Anchor-Based和Anchor-Free 两大方向,亦可根据其实现结构分为One-stage和Two-stage两大方向,如表1所示。

表1  目标检测常见方法

YOLO是目前主流的单阶段目标检测器,其较高的速度和精度是版面非文本元素检测的优选。通过通用的目标检测器可以轻松得到如图片、印章、流程图、公式、手写等简单元素。但是通用的开源检测方案也存在其缺陷,如无法准确定位需要多边形框的目标、无法准确检出较小目标(如logo)等。

对于多边形目标的检出,有效的方法是在ROIs(Faster RCNN)或者加入并行的Segment Head (One-stage) 来对目标区域再进行一次语义分割得到更精细的目标mask,最终通过轮廓找到其多边形坐标。

而对于细小目标的检出,对Anchor-Based的方案而言,需要对Anchors参数进行更细化的处理,可以通过增加几组面积更小的预设Anchor参数(Faster RCNN),或如YOLOv5一般对训练集进行一次分析和聚类得到fitness更高的Anchors预设组合。此外,可以通过在Backbone的Basic Block中加入如空间注意力(Spatial Attention),自注意力(Self-Attention)等方法扩大有效感受野以提高小目标检出。另一方面,因为小目标在训练集中的分布大概率是稀缺的,可以通过加入OHEM(Online Hard Negative Example Mining)或Focal Loss到损失函数中以缓解样本分布不均衡问题。除此之外,提高输入图像分辨率大小可能是最简单的做法。

文字识别,又称光学字符识别,是文本图像领域中的一个重要的基石。文本识别一般分为两个步骤:文本检测和文本识别。

早期计算机领域一般采用手工特征提取的方式进行文本检测,如SWT、MSER等算法得到文本所在位置,再利用基于模板的方法或者机器学习的方法对文本区域进行分类得到文本内容。顺着深度学习的发展潮流,文本检测的方法也逐渐衍生出基于回归和基于分割两个方向的研究。基于回归的方案即将文本行所在位置的坐标直接通过回归预测的方式得到,如CTPN、SegLink等。而基于分割的方案则是通过语义分割的方式先得到文本区域的mask,再利用轮廓检测的方法得到其坐标,如EAST、DBNet等。而文本识别则是发展为以CRNN为代表的序列预测方案。端到端的文本识别方案,即将检测和识别作为不同的分支并入一个模型中的方案,也应运而生。

基于回归的文本检测主流方案是TextBoxes++,以SSD目标检测为基本框架,引入default box回归分支以获得文本框四点坐标的偏移量,通过回归获得的文本最小矩形框(四点坐标)及default box计算得到最终的多角度文本框坐标。如图2所示:

 图2  TextBoxes++网络结构图

基于分割的文本检测主流方案为DBNet,通过将创新的可导二值化模块一同送入网络学习解决了以往分割类文本检测后处理需要使用固定阈值获取文本mask导致的鲁棒性问题。并因其更快的预测速度和更高的预测精度在文本检测领域获得了广泛的使用和延伸。如图3所示:

图3  DBNet网络结构图

在文档图像领域,开源的通用文字检测模型如DBNet、TextBoxes++等可以在常规场景下使用。但是也存在许多的缺陷,如密集文本会出现粘连问题、小字和符号检出率低、变形褶皱文本检测困难、印章或水印签名干扰等。所以还需要通过方案或模型的进一步改造适应特殊场景的需求。

文本识别中的技术难点

主流的文字识别以序列预测方向为基础,通过卷积神经网络提取图像特征,再利用序列模型对特征进行进一步编码预测,最后通过转录/翻译层进行解码得到最终结果。其中,最主流的实现方案为CRNN。CRNN成功引入了语音识别中的CTC(Connectionist Temporal Classification)转录层,通过CTC将序列预测结果转录为字符串结果,并使得其能支持可变长度的输入。

不同于场景文字识别,文档图像文本识别存在其独特的技术难点,如带声调的拼音、化学式、字符间距及空格、不同底色背景和字体、不同的文字朝向等。深入的解决方案又会衍生出很多篇幅,这里不做赘述。

表格识别相当于一个小型的版式还原系统,包含表格检测、表格分类、表格结构识别、表格内元素(包含文本和非文本元素)检测与识别、表格属性识别等部分,其中表格检测、表格内元素检测与识别和表格外部的检测与识别基本无异,这里着重讲一下表格分类、表格结构识别和表格属性识别部分。

表格分类是对检测到的表格区域进行进一步确认和细分类,表格分类的目标有两个:(1)判断输入的图像是否是表格;(2)依据表格边框类型将表格图像分为全封闭有线表、三线表、无线表和异形表,如下图4所示。表格分类对于减少表格误检和提高后续的表格结构重建有着非常重要的作用。

图4  样式繁多的表格

传统的表格分类方法往往是利用表格的统计特征(如线条特征、角点特征等)来进行分类,其鲁棒性差,分类准确率较低。目前对于这类图像分类任务,我们大多采用基于卷积神经网络的深度学习分类方法,如VGGnet、MobileNet等。然而在实际工程中,我们发现,总有一些非表格图像被误分为表格类,分析认为分类模型仍然是通过学习线条的特征来判断输入图像是否是表格类别。为此,我们采用One-class learning的思路,通过将非表格类图像当作是数据集中的异常点来进行排除,大大减少了表格的误检率。

表格结构重建是表格识别任务最重要的部分之一,用于还原表格的单元格结构。实践发现,不同结构类型的表格一般适用于不同的解决方法,例如对于全封闭有线表,其表格横竖线的特征都比较明显,可以充分利用线相关的特征来优化结构的还原效果,而对于无线表格,则缺少表格线的指导信息,此时就要求能够利用文本的语义信息和位置信息来自动构建合适的单元格结构。目前行业中的表格还原方法依据还原思路的不同可以分为以下四类:

  • 基于传统规则的方法

一般是基于启发式规则和传统的图像处理,主要利用表格线、文本块位置以及文本块之间的间隔等信息来确定单元格的位置,从而重建表格的整体结构。这类方法非常依赖于表格线和文本块的检测以及预先设计的规则,受制于传统图像算法检测表格线的准确率较低,早期的基于传统规则的表格结构重建方法效果较差,无法在各种场景中获得较高的准确度,且通用性和鲁棒性都不够好。

  • 基于深度学习检测/分割的方法

近些年,随着深度学习的蓬勃发展,基于深度学习的检测和分割均取得较大进展,在表格结构重建中也有了较为成功的运用,如基于传统规则的表格结构重建方法基础上,使用如FCN\Unet的分割网络等来分割表格线,使用诸如DBNet的检测网络来检测文本块,再辅以结构重建的规则,可以取得不错的效果,如腾讯的表格识别项目和table-ocr开源项目。在SPLERG方法中,首先利用分割网络将图像分为多个网格区域,每个网格区域代表候选单元格,再通过合并网络将跨行跨列的候选单元格合并起来便完成了表格结构的重建,在TableNet方法中,使用分割网络分割表格的列区域,再采用基于规则的方法将列的分割结果处理成最终的单元格邻接关系,从而得到表格的结构。这类方法可以准确地获得单元格的逻辑坐标和物理坐标,但对弯曲/扭曲表格和少线表的处理还有较大提升空间。

  • 基于深度学习图神经网络的方法

表格作为一种结构化的数据,表格的结构与表格内的文本在空间中有很强的依赖关系,将表格内文本以及文本之间的关系建模为一个图,使用图来描述表格结构,就可以采用图网络来解析和重建表格结构。这类方法一般需要提前检测和识别文本的信息,将每条文本作为一个顶点,将文本的OCR信息、位置信息、图像特征等作为顶点的信息,然后使用图网络来判断顶点之间的关系,再经过一些后处理即可完成表格结构重建。这类方法能够结合图像特征、OCR语义特征等多模态信息,尤其在无线表的结构还原上有着天然优势,但是该类方法流程较复杂,且当表格文本数量特别多时,图网络的效果和耗时均有待提高。

  • 基于深度学习端到端的方法

使用image-to-text的思路,输入表格图像直接输出表格结构的描述,实现端到端的结构识别。在这类算法中,一般先使用特征提取网络提取表格的图像特征,然后再通过诸如Transformer解码器的网络来做序列的识别,完成图像到结构序列的转换。端到端的表格结构重建方法流程简单,而且不用制定复杂的后处理规则,但其一般只输出单元格的逻辑坐标而缺失物理坐标信息,而且这类方法大都将表格检测、文本检测和识别以及表格结构重建耦合在一起,不易解耦。

文字属性识别(Charater Attribute Recognition),是对检测区域的文本进行字符属性识别。它是在OCR内容识别基础上进行的字符属性特征分析,表现为更细粒度的特征。其属性主要包括字体、字号、颜色、粗体、倾斜、高亮、下划线、删除线等属性,如图5所示,这些属性可以使文档更加饱满和丰富。

图5 文字相关属性说明

字体识别是对检测区域的字符的字体进行识别,通用引擎支持了中文与英文字体的识别能力。对于文档图像字体分析方法,目前市场上大部分由CNN网络提取特征和分类器组成。其思路大致如下:

  • 获取字符的区域坐标,并截取字符区域图像;
  • 将截取的字符图像送进CNN网络提取特征;
  • 对字符的字体特征进行分析,并获得字体类别。

该方法的优点是可以详细分析每个字符的字体属性,尤其是对一个文本上有多种字体的情况,但是对于符号类型的字符,字体分类也很难分辨。另外,模型识别时,对上游的检测有较强依赖和密集的识别计算,所以对于低质量和篇幅较大的文档图像仍有不少挑战。

文字字号是文字的一个重要属性,反映字符在文档中的大小空间关系。对于文档排版,尤其是层级不一样的文本中,可以让版面结构更清晰和完备。字号的计算方式一般是:

size=pix*72/dpi,

其中pix是字符的宽或高的像素个数,dpi是每英寸点数(Dots Per Inch)。

文字颜色和高亮,文字颜色是最直观和最简单的文字属性信息,它可以让文档层次分明,让文档丰富多样。在不同的场景下,字色和背景的还原需求以及难度是不一样的。目前有效的方案大致分为两种:

  • 传统图像处理方法包括像素直方图统计、边缘检测、分水岭算法等,特点是速度快,但是泛化性比较差,比较依赖场景和经验;
  • 深度学习算法包括目标检测、语义分割等,可以解决传统算法的痛点,但是数据集标注成本高、推理耗时比较高;实际应用中可以结合深度学习算法和传统算法。

文字粗体,因为加粗字体和未加粗字体具有明显层次特征,所以在文档中具有强调功能。在拍照键文档中,目前很少公司做粗体识别功能。基于粗体在文档中具有强调功能,采用检测算法对文本粗体检测应该是可行的。获取到粗体位置后,根据检测位置切分粗体区域和非粗体区域来实现字符粗体的识别。

文字斜体是反映字体是否倾斜的一种状态,特别是在某些英文的场景下,斜体可以让文档更具美感。因为斜体字符一般是连续出现,所以对于斜体是采用多个字符图像进行分析。其主流方法还是上述提到的CNN网络和分类器结合。

对文档图像理解的多模态融合探索

图像理解是在图像分析的基础上,进一步研究图像中各目标的性质和它们之间的相互联系,并得出对图像内容含义的理解以及对原来客观场景的解释,从而指导和规划行动。随着全球数字化进程的推动,文档型图像内容成为企业办公的重要内容之一。人们对于海量文档智能解析和检索的需求日益高涨,因此,文档图像理解应运而生。文档图像理解站在计算机视觉(CV)和自然语言处理(NLP)的基础之上,融合两种模态进行更深入的探索,推动人工智能从机器感知阶段走向更智能化的机器认知。

大规模预训练任务

自2018年以来,伴随着BERT的问世,自然语言处理领域进入了预训练技术新纪元。受益于BERT(Transformer)的优秀架构和性能、海量无标注文本数据及澎湃的GPU算力加持,预训练语言模型的规模和性能不断被推向新的高度。如2020年发布的预训练语言模型GPT-3已经达到了惊人的1750亿参数量,在应用端ChatGPT的问世更是引发了人工智能领域的轰动。

与传统的有监督训练模型相比,大规模预训练模型有更大的参数规模,意味着其拥有着更强大的“知识储备空间”,而其无监督训练的特性使其能够在最低的成本下获取到最多的通用知识,因此只需要用少量标注数据进行微调就可以轻松适配各类下游任务。

因为Transformer架构的通用性,其计算机视觉领域中也得到了广泛的应用,大量企业和高校也看到了Transformer架构存在多模态通用的特性,纷纷开始探索多模态预训练任务。其中在文档理解领域以微软的LayoutLM系列和华南理工大学的LILT为主流。

LayoutLM系列通过结合文本位置信息(2D-Embeddings)、图像特征信息(Image-Embeddings)和文本语义信息(Text-Embeddings)进行预训练任务。预训练任务包括掩码视觉语言模型(MVLM),随机掩盖部分单词的文本信息,让模型根据语境预测被掩盖的单词以学习上下文语境。预训练任务还包括多标签文档分类(MDC),让模型学习到每个文档图像属于什么类型的文档的判断能力。辅以海量文档数据即可得到足够强大的预训练文档理解模型。如图6所示:

图6  LayoutLM系列结构图

LILT则是结合文本信息(Text-Embeding)和布局信息(Layout-Embeddings),利用BIACM(Bi-directional Attention Complementation Mechanism)使得两种信息流得以交互,提高模型跨模态信息交融的能力。预训练任务在同样使用了MVLM的同时还加入了KPL(Key Point Location)任务,通过掩盖掉部分文本坐标,让模型根据语义和布局信息预测掩盖掉的文本的坐标,让模型拥有布局感知能力的同时尽量缓解前置OCR可能带来的文本坐标偏差影响。此外,LILT还加入了模态对齐任务(Cross-modal Alignment Identification),通过掩盖掉语义信息或者位置信息,让模型判断哪些信息是被掩盖的,从而让模型学到跨模态对齐能力。如图7所示:

图7  LILT架构

关键信息抽取与关系匹配

文档图像理解的重要应用之一就是关键信息抽取与匹配。对于文档图像内的关键信息提取,一般采用命名实体识别(NER)方案,即通过模型对输入信息(图像/文本/语音)进行解析并获取信息里具有特定意义的实体(主要包括人名、地名、机构名、专有名词等,以及时间、数量、货币、比例数值等文字)。而关键信息匹配则是将命名实体与其对应的信息进行关系配对,如国家(实体):中国。

在2022年CSIG图像图形技术挑战赛中,金山办公在小票理解赛道中就使用了关键信息抽取技术并取得冠军。对于关键信息抽取任务而言,其准确度会受到前置OCR结果误差、阅读顺序等制约。在关系匹配任务中,其准确度也会受到如实体信息缺省、同时存在多个实体信息等情况的干扰。对于阅读顺序造成的准确度降低问题,可以采用XY-Cut的方式,对前置OCR的输出结果进行阅读顺序粗略排序,一定程度上可缓解其影响。此外,在做OCR之前先对图像进行前置矫正(弯曲、倾斜、透视变换)也是一个比较好的处理方法。在做实体关系匹配的时候,可以先用一个轻量化的目标检测模型将某些存在复杂属性的实体进行位置约束,如小票数据里的商品实体(如图8所示),确保关系匹配不会被同类实体干扰。命名实体识别和关系匹配所处理的特征相似,因此在工程实现上可以做到两个任务共享同一个模型主干以降低开销。

图8  小票数据里的商品实体

整套服务系统基于K8s部署在CPU和GPU异构设备之上。分成以下七个部分:终端,多来源的接入;网关层,KLB作为一级网关,kong作为二级网关;服务层,由调度层(scheduler)、算法层(algorithm)、转换层(transform)构成的3层结构;推理框架,通过调起推理进程池,加载指定的推理框架和模型进行推理;中间件,通过Redis进行中间状态缓存,采用RabbitMQ做消息队列,进行服务间通信与负载均衡;运行环境,基于kae(K8s)做服务构建与部署,运行在CPU与GPU之上;可观察性,做服务调用链追踪、日志系统、监控与告警等。如图9所示:

图9 整套服务系统架构图

结语:从感知智能向认知智能的演化

该通用引擎具备了对各类型文档图像的处理能力,在WPS的产品中,PDF转Word、图片转表格、扫描件PDF编辑等功能已采用以上提到的能力(见图10-12)。

图10 PDF转docx

图11 PDF转表格

图12  扫描件PDF编辑

图像处理是比较低层的操作,它主要在图像像素级上进行处理,处理的数据量非常大。图像分析则进入了中层,分割和特征提取把原来以像素描述的图像转变成比较简洁的非图形式的描述,这一过程以视觉感知为主。图像理解主要是高层操作,基本上是对从描述抽象出来的符号进行运算,其处理过程和方法与人类的思维推理有许多类似之处,这一过程以认知为主。后者尚未成熟,但是颇具技术和社会价值,是金山办公在图像文档处理领域从感知智能向认知智能演化的技术路线。

近年来深度学习发展迅猛,在图像、文本、语音、推荐等多个领域都取得了显著成果,在文档图像识别任务日趋成熟下,针对多模态文档理解任务,不仅将文本信息和页面布局信息,还将图像信息融入到了多模态的框架中,空间感知自注意力机制的引入进一步提高了模型对文档内容的理解能力。伴随着数字化转型的深入,相信在文档智能理解的研究和工业落地上的工作会有越来越多的研究人员和企业参与其中,共同推动信息产业化相关技术和行业的发展。

年刊扫码订阅

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-04-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技大本营 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
比OCR更强大的PPT图片一键转文档重建技术
作者:熊唯,黄飞,戈扬,腾讯 PCG 应用研究员 本文介绍了 QQ 研发中心自研的 PPT  重建技术,目前腾讯文档在进行接入工作。当前主流办公产品比如 office,wps,腾讯文档会采用 AI 技术对图片进行排版恢复还原为 doc 形式的文档。通常针对以文字偏多,格式简单的图像效果比较好。如果内容丰富,图片并茂的内容图像在转为 doc 文档时,由于图像比例,文档排版插入,对丰富背景还原度差等问题导致很多 ppt 形式的图片无法很好还原为电子文档。 目前越来越多的资源信息是以图像形式存储,然而很多
腾讯技术工程官方号
2020/05/27
4.8K0
美团的OCR方案介绍
近年来,移动互联、大数据等新技术飞速发展,倒逼传统行业向智能化、移动化的方向转型。随着运营集约化、数字化的逐渐铺开,尤其是以OCR识别、数据挖掘等为代表的人工智能技术逐渐深入业务场景,为用户带来持续的经济效益和品牌效应。图书情报领域作为提升公共服务的一个窗口,面临着新技术带来的冲击,必须加强管理创新,积极打造智能化的图书情报服务平台,满足读者的个性化需求。无论是高校图书馆还是公共图书馆,都需加强人工智能基础能力的建设,并与图书馆内部的信息化系统打通,优化图书馆传统的服务模式,提升读者的借阅体验。
机器学习AI算法工程
2021/10/14
1.8K0
美团的OCR方案介绍
EAST、PixelLink、TextBoxes++、DBNet、CRNN…你都掌握了吗?一文总结OCR必备经典模型(二)
本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。
机器之心
2023/08/08
1.4K0
EAST、PixelLink、TextBoxes++、DBNet、CRNN…你都掌握了吗?一文总结OCR必备经典模型(二)
微信图片翻译技术优化之路
作者:poetniu,腾讯 WXG 应用研究员 微信(WeChat)作为 12 亿+用户交流的平台,覆盖全球各个地区、不同语言的用户,而微信翻译作为桥梁为用户间的跨语言信息交流提供了便利。目前微信翻译每天为千万用户提供数亿次的翻译服务,且团队技术持续钻研,累计发表数十篇顶会论文、夺得多项 WMT 冠军。随着翻译质量的提升,微信翻译的应用形态从文本逐步扩展到图片、语音、网页、文档、视频等众多场景。本文以微信图片翻译为例介绍近一年的技术优化。 文章术语 ViT:Vision Transformer NLP
腾讯技术工程官方号
2021/12/24
2.9K0
深度学习应用篇-计算机视觉-OCR光学字符识别[7]:OCR综述、常用CRNN识别方法、DBNet、CTPN检测方法等、评估指标、应用场景
OCR(Optical Character Recognition,光学字符识别)是指对图像进行分析识别处理,获取文字和版面信息的过程,是典型的计算机视觉任务,通常由文本检测和文本识别两个子任务构成。
汀丶人工智能
2023/06/11
3.5K0
深度学习应用篇-计算机视觉-OCR光学字符识别[7]:OCR综述、常用CRNN识别方法、DBNet、CTPN检测方法等、评估指标、应用场景
常用的表格检测识别方法——表格结构识别方法(上)
表格结构识别是表格区域检测之后的任务,其目标是识别出表格的布局结构、层次结构等,将表格视觉信息转换成可重建表格的结构描述信息。这些表格结构描述信息包括:单元格的具体位置、单元格之间的关系、单元格的行列位置等。
合合技术团队
2023/05/24
1.7K0
常用的表格检测识别方法——表格结构识别方法(上)
深度学习助力版面分析技术,图像“还原”有方
近期,2023年度视觉与学习青年学者研讨会 (Vision And Learning SEminar, VALSE) 在无锡圆满落幕,此研讨会是图像视觉领域的重磅会议。作为智能文档处理领域代表的合合信息自然不会缺席,合合信息出席会议并进行智能文档处理技术研发与实践成果分享,重点介绍了其在版面分析与文档还原技术实现上的新突破。
码农飞哥
2023/09/03
9370
深度学习助力版面分析技术,图像“还原”有方
我们教电脑识别视频字幕
本文介绍了一种基于深度学习的视频字幕识别和生成方法,包括字符级和单词级两个模块,以及针对视频字幕中字符和单词的识别和生成任务。首先,通过深度学习模型对视频中的字幕进行定位和提取,然后使用字符级和单词级两个模块分别进行字符和单词的识别和生成。实验结果表明,该方法能够有效地识别和生成视频字幕,对于艺术字体、手写字体等难以切分的情况,以及对于视频中的噪声干扰,都具有较高的鲁棒性。
麻文华
2017/04/06
9.6K4
我们教电脑识别视频字幕
政府部门文档管理革新:实现90%自动内容抽取与智能标签化处理!
思通数科智能文档管理系统通过前沿算法和优化技术,实现了文档管理的全流程智能化。从信息抽取、图像识别到系统集成与安全保障,每个模块都基于最先进的理论与实践,为客户提供全面、高效、可靠的解决方案。
思通数科
2024/12/02
3060
政府部门文档管理革新:实现90%自动内容抽取与智能标签化处理!
走进AI时代的文档识别技术 之表格图像识别
导读:作者系腾讯QQ研发中心——CV应用研究组的yonke。本文主要介绍基于深度神经网络的表格图像识别解决方案。 1.前言 1.1背景 大多数人日常办公处理的文件,无非就是表格和文档,其中表格的重要性毋庸置疑。在各行各业的桌面办公场景中,Excel和WPS是电子表格的事实标准。我们经常遇到这种需求:将一个表格图片的内容导入Excel。 以前我们只能对着图片把内容一点点敲进excel,既低效又容易出错。近年来,在深度学习的加持下,OCR (Optical Character Recognition,光学
腾讯技术工程官方号
2019/07/01
16.2K5
走进AI时代的文档识别技术 之表格图像识别
7大核心技术:智能OCR如何助力市政单位文档处理数字化转型
文档数据质量参差不齐,模糊、倾斜、印章遮盖等问题是智能识别的主要障碍。OCR通过以下技术模块解决这些难题:
思通数科
2024/11/24
3030
7大核心技术:智能OCR如何助力市政单位文档处理数字化转型
文档比对技术难点与使用场景
文档比对技术是一种用于比较两份文档之间差异的先进技术。具备较大的技术难点和场景价值。下面将对其技术难点和使用场景进行详细探讨。
合合技术团队
2023/08/15
7000
文档比对技术难点与使用场景
三年磨一剑——微信OCR图片文字提取
导语 | 2021年1月, 微信发布了微信8.0, 这次更新支持图片文字提取的功能。用户在聊天界面和朋友圈中长按图片就可以提取图片中文字,然后一键转发、复制或收藏。图片文字提取功能基于微信自研OCR技术,本文将介绍微信OCR能力是如何落地文字提取业务的。文章作者:伍敏慧,腾讯WXG研发工程师。 一、背景 微信8.0上线了图片提取文字的功能,用户在聊天界面和朋友圈中如果想提取图像中的文字,不用再辛苦打字了,只要简单几个步骤,就可以拿到图片中的文字内容,超级方便实用。 图1 微信客户端提取图片中的
腾讯云开发者
2021/03/08
22.4K3
腾讯数平精准推荐 | OCR技术之检测篇
本文将主要介绍数平精准推荐团队的文本检测技术。
腾讯大数据
2018/05/08
10.2K6
腾讯数平精准推荐 | OCR技术之检测篇
【深度学习】OCR文本识别
OCR(optical character recognition)文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题。衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。
天天Lotay
2023/04/26
8K0
【深度学习】OCR文本识别
达观高翔:智能文档处理IDP关键技术与实践
什么是智能文档处理?针对文本数据处理尤其是纯文本,大家通常会想到使用自然语言处理(Natural language processing,NLP)技术来解决语义理解及分析处理工作。关于自然语言处理技术的研究有很长历史,针对不同层面文本处理和分析有很多技术点,常见技术例如分词与词性标注、命名实体识别、句法结构分析、文本分类、文本摘要等功能。
用户10103085
2022/11/03
2.1K0
达观高翔:智能文档处理IDP关键技术与实践
走进AI时代的文档识别技术 之文档重建
导读:作者系腾讯QQ研发中心——CV应用研究组的totoralin。本文主要介绍基于深度学习的文档重建框架,通过文档校正、版面分析、字体识别和阅读排序将纸质文档智能转成可编辑的电子文档。相比较传统的OCR技术,更加完整地恢复出文档关键图表等内容,提高用户文档处理的效率。 1、相关背景 随着知识爆炸,借助纸质媒体、网络媒体等途径每天我们都在接触大量的信息。但是当我们发现某些信息是有启发性、有价值的,又苦于如何将这些信息沉淀下来。由于这些信息载体丰富多样,有的是纸质书有的是网页报道有的是PDF电子书,没有
腾讯技术工程官方号
2019/06/20
6.5K0
走进AI时代的文档识别技术 之文档重建
文档智能理解:通用文档预训练模型与数据集
预训练模型把迁移学习很好地用起来了,让我们感到眼前一亮。这和小孩子读书一样,一开始语文、数学、化学都学,读书、网上游戏等,在脑子里积攒了很多。当他学习计算机时,实际上把他以前学到的所有知识都带进去了。如果他以前没上过中学,没上过小学,突然学计算机就不懂这里有什么道理。这和我们预训练模型一样,预训练模型就意味着把人类的语言知识,先学了一个东西,然后再代入到某个具体任务,就顺手了,就是这么一个简单的道理。
机器学习AI算法工程
2020/12/15
1.8K0
ICDAR 2019表格识别论文与竞赛综述(上)
表格作为一种有效的数据组织与展现方法被广泛应用,也成为各类文档中常见的页面对象。随着文档数目的爆炸性增长,如何高效地从文档中找到表格并获取内容与结构信息即表格识别,成为了一个亟待解决的问题。ICDAR是一个专注于文档分析与识别问题的国际学术会议,已经连续多届设置了表格识别专题。在今年的ICDAR 2019会议上,有不少研究者在表格检测与结构识别等领域做出了新的贡献,使其有了新的进展。本课题组梳理了该会议中有关表格识别的16篇论文,总结该领域当前的研究进展与挑战。同时,值得注意的是,该会议也举办了关于表格检测与结构识别的比赛,我们对参赛队伍使用的方法与结果进行了一些讨论。
AI算法与图像处理
2019/11/29
6.8K0
常用的表格检测识别方法-表格内容识别方法
表格识别的研究主要涉及两个方面,一方面是对单元格内的文本进行识别,这一步通常是在确定单元格区域后,利用较为稳定的光学字符识别方法(OCR)来实现,这一方面不是表格识别研究的重点,不在此展开;另一方面是基于整个表格内容进行的表格分类、单元格分类、以及表格信息抽取等任务,这是当前表格识别研究的热门领域之一。下文会对表格信息抽取进行展开讲述。
合合技术团队
2023/06/12
8530
常用的表格检测识别方法-表格内容识别方法
推荐阅读
相关推荐
比OCR更强大的PPT图片一键转文档重建技术
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档