Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >重磅开源!平安产险提出TableMASTER:表格识别大师

重磅开源!平安产险提出TableMASTER:表格识别大师

作者头像
Amusi
发布于 2021-08-10 06:10:53
发布于 2021-08-10 06:10:53
3.1K0
举报
文章被收录于专栏:CVerCVer

AI/CV重磅干货,第一时间送达

TableMASTER

在4月份结束的 ICDAR2021 科学文献解析表格Table2HTML 赛道,平安财产保险视觉计算团队基于文本识别算法MASTER,提出了适用于表格识别的TableMASTER算法,并取得了该赛道的亚军。目前,作者团队基于开源工具箱mmocr,复现了该解决方案,代码已开源!

论文:https://arxiv.org/abs/2105.01848

GitHub代码链接:https://github.com/JiaquanYe/TableMASTER-mmocr

MASTER代码链接:https://github.com/JiaquanYe/MASTER-mmocr

背景

表格作为传递信息的文本格式之一,在文献(尤其是科学文献)中广泛存在。在 ICDAR2021 科学文献解析表格Table2HTML 比赛中,参赛选手需要设计一个算法模型或者算法系统,把包含表格数据的图像,转为HTML代码。平安财产保险视觉计算团队作为本次比赛参赛选手,提出了TableMASTER算法模型,采用多任务学习的模式,同时进行表格结构序列预测以及单元格位置回归,最后通过后处理匹配算法,融合表格结构序列和单元格文本内容,得到HTML代码。最终,团队以96.32 TEDS score的成绩,取得了该赛道的亚军。比赛的详细介绍可点击链接:

https://aieval.draco.res.ibm.com/challenge/40/overview

简介

整个解决方案可以分为4个部分:表格结构序列识别表格文本行检测表格文本行识别,以及单元格与表格结构序列匹配。表格识别的整个流程如下图所示。

在表格结构序列识别部分,使用的就是上述提到的TableMASTER。该模型改进自团队自研的文本识别算法MASTER。它与原生的MASTER在结构上的区别如下图所示。

TableMASTER的特征提取器与MASTER的特征提取器在结构上是大体一致的,采用的都是改进过的ResNet网络。但TableMASTER在解码阶段,经过一个Transformer Layer后,会分成两条分支。一条分支进行表格结构序列的监督学习,另一条分支则进行表格中单元格位置回归的监督学习。之所以经过一个Transformer Layer后再分开两个分支,而没有选择经过3个Transformer layer后再加两个不同任务的head,是为了更好的解耦特征。为了使表格序列预测的长度与回归单元格的数目对齐,在训练时会把单元格位置回归分支中非单元格的地方Mask掉,不算入bbox回归损失。同理,在预测时也会根据结构序列预测结果,Mask掉非单元格的地方,取其他位置的回归结果作为输出。TableMASTER单元格位置回归预测结果可视化如下图所示。

在表格文本行检测部分,我们采用的是经典的文本检测算法PSENet,进行文本行检测。需要的注意的是,比赛举办方使用的数据集为PubTabNet,其提供的标注文件中,并没有提供以文本行为单位的位置信息。因此,我们在训练集中随机抽取了2500张表格图片,进行了文本行的标注。标注结果将用于PSENet的训练。实验证明,在本任务中,2500张带标注的表格图片,足以训练一个近乎完美的文本检测模型。PSENet文本行检测可视化结果如下图所示。

在表格文本行识别部分,我们采用的是自研文本识别算法MASTER,对PSENet检测结果进行识别。由于PubTabNet数据集中只提供了单元格级别的位置信息,因此以该位置信息裁剪出来的文本行图片,是不仅包含单行文本,还有一部分是多行文本。而MASTER是基于2D注意力文本识别算法,因此可同时支持对单行、多行文本数据进行训练。采用PSENet + MASTER,文本行在验证集端对端的识别准确率可达0.9885

在单元格与表格结构序列匹配部分,我们定义了三种匹配规则,分别是Center Point RuleIOU Rule,以及Distance Rule。这三种匹配规则按一定优先级执行,先进行Center Point Rule的匹配,没匹配上的进行IOU Rule的匹配,最后是Distance Rule的匹配。关于匹配规则的详细描述,可参考技术文档中的2.4节。匹配效果如下图所示。

结论

  1. 提出的TableMASTER可以同时进行表格结构序列预测以及单元格位置预测
  2. 采用PSENet + MASTER文本行在验证集端对端的识别准确率可达0.9885
  3. 定义了三种匹配规则,用于融合TableMASTER输出的表格结构序列结果和PSENet + MASTER文本识别结果,得到最终的HTML代码
  4. 96.32 TEDS score的成绩,取得了该赛道的亚军

作者团队

平安财产保险视觉计算团队(VC组)专注解决金融保险领域的计算机视觉应用问题,团队积极创新,已有多项自研OCR 、关键性信息抽取技术。以下是团队近年来获得的荣誉:

  • 在ICDAR2019票据识别及关键信息3个任务中,团队分别斩获第二,第三,第一名;
  • Kaggle举办的百度/北大无人驾驶比赛中,获得亚军;
  • ICDAR2021科学文献解析表格Table2Latex 赛道冠军;
  • ICDAR2021科学文献解析表格Table2HTML 赛道亚军;
  • ICDAR2021数学公式检测赛道冠军;
  • 第五届中国创新挑战赛智慧教育专题赛手写公式识别亚军。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-08-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CVer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
buuctf_misc部分wp(8.25更)
看到 n e 可以判断为rsa,脚本解密: import gmpy2 p=gmpy2.mpz(3) q=gmpy2.mpz(11) e=gmpy2.mpz(3) l=(p-1)*(q-1) d=gmpy2.invert(e,l) c=gmpy2.mpz(26) n=p*q ans=pow(c,d,n) print ans 得到结果:5 然而 真实的压缩包 密码是:答案是5 解压后得到一个图片和一个文件,将图片用winhex打开可以看到是png文件,修改图片高度可得到:
回天
2023/04/25
1.1K0
buuctf_misc部分wp(8.25更)
津门杯2021 部分WriteUp
ZmxhZ3tsNURHcUYxcFB6T2IyTFU5MTlMTWFCWVM1QjFHMDFGRH0=
Timeline Sec
2021/06/25
9450
DozerCTF部分wp
base64 → base32 → decode('hex') → base58,得到flag
回天
2023/04/25
4510
DozerCTF部分wp
2022年“羊城杯”网络安全大赛
一百张几乎一样的图片,使用stegsolve找一张图片和回收站修复的图片对比一下,得到key
故里[TRUE]
2023/04/20
4780
2022年“羊城杯”网络安全大赛
蓝帽杯决赛misc部分wp
根据hint找到pdf中对应三个位置的00字符串长度,分别为1919/7753/34,拼起来转成字符串,得到压缩包密码rmrf,解压得到
回天
2023/04/25
2720
蓝帽杯决赛misc部分wp
第14届全国大学生信息安全竞赛-创新实践能力赛
来源于:https://r0yanx.com/2020/10/28/fslh-writeup/
MssnHarvey
2022/08/10
5510
第14届全国大学生信息安全竞赛-创新实践能力赛
MISC基础题-攻防世界
引言:这里是我做的攻防世界-misc-基础题的一些writeup,希望能够大家一些参考,部分解题思路借鉴了其他博主,如果哪些地方有问题或更好的思路,可以一起探讨。 所用环境以及做题思路只在当时写下writeup时适用,若之后做出改动可与我联系,做出相应更改。
Baige
2022/03/07
1.7K0
MISC基础题-攻防世界
NepCTF 2022
打了三天的NepCTF,还是有收获的,都是挺有意思的题目,终究是我太菜,师傅们都太卷了,敌不过你们
故里[TRUE]
2023/04/19
3910
NepCTF 2022
Misc相关笔记(7.23更)
png文件的16进制文件头格式为 89 50 4E 47 0D 0A 1A 0A
回天
2023/04/25
1.1K0
Misc相关笔记(7.23更)
记一道比较复杂的USB流量分析题
提取出来后可以看到得到的数据有空行,可以在提取时用 | sed '/^\s*$/d' 命令删去空行:
回天
2023/04/25
4210
记一道比较复杂的USB流量分析题
湖湘杯2020 MISC WriteUp
下载附件查看流量包,发现没啥信息,于是导出对象->http对象->index-demo.html,打开查看源码发现一堆base64:
L1near
2022/11/11
4440
湖湘杯2020 MISC WriteUp
攻防世界_misc部分wp
下载后解压得到一张图片,扔进binwalk后得到两张看起来一样的图片和一个hint.txt,打开txt文件看到
回天
2023/04/25
1.1K0
攻防世界_misc部分wp
第四届红帽杯网络安全大赛
data2三个一组转RGB,然后data1里的数字就是对应的RGB的位置,然后根据data1的字符数量分解质因数得到宽高,最后画图去npiet解
MssnHarvey
2022/08/10
5220
第四届红帽杯网络安全大赛
CTF——流量分析题型整理总结
先过滤出 icmp协议的包》导出特定分组 》保存为flag.pcapng》然后用脚本处理:
全栈程序员站长
2022/08/14
7.9K0
CTF——流量分析题型整理总结
BUGKU靶场解题记录之misc(一)
这道题是一个较为常见的二维码隐写题目,用0和1分别作为二维码的黑色与白色部分。在使用工具扫码得到flag。
十二惊惶
2024/02/28
8760
CTF流量分析常见题型(二)-USB流量
在学习Wireshark常见使用时,对常见CTF流量分析题型和铁人三项流量分析题的部分问题进行了简单总结。由于篇幅过长,于是另起一篇总结USB流量包分析,包括键盘流量和鼠标流量。
全栈程序员站长
2022/06/30
3.9K0
CTF流量分析常见题型(二)-USB流量
WHUCTF部分wp
签到题,下载附件得到一个.git的文件夹,正常情况下文件夹被隐藏,显示隐藏后可以看到,百度可知这个.git文件夹是创建git仓库时部署在本地的一个类似目录的东西
回天
2023/04/25
3880
WHUCTF部分wp
ctf MISC 学习总结「建议收藏」
linux挂载光盘,可用7zip解压或者notepad搜flag,base64解码 放到kali 挂载到/mnt/目录 mount 630a886233764ec2a63f305f318c8baa /mnt/ cd /mnt/ ls 寻找 find | grep ‘flag’ 或 find -name ‘flag’* 查看 cat ./O7avZhikgKgbF/flag.txt
全栈程序员站长
2022/07/23
1.3K0
ctf MISC 学习总结「建议收藏」
BUUCTF-misc题
发现是一个base64编码的图片 用在线网站解码https://the-x.cn/base64/
R0A1NG
2022/02/19
2.1K0
BUUCTF-misc题
深入理解USB流量数据包的抓取与分析
在一次演练中,我们通过wireshark抓取了一个如下的数据包,我们如何对其进行分析?
Angel_Kitty
2018/08/15
5.2K0
深入理解USB流量数据包的抓取与分析
相关推荐
buuctf_misc部分wp(8.25更)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档