前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >CCIG 2024:合合信息文档解析技术突破与应用前景

CCIG 2024:合合信息文档解析技术突破与应用前景

原创
作者头像
海拥
发布于 2024-05-31 12:17:04
发布于 2024-05-31 12:17:04
1940
举报
文章被收录于专栏:全栈技术全栈技术

背景

2024年5月24日-26日于西安召开中国图象图形大会(CCIG 2024),此次大会由中国图象图形学学会主办,空军军医大学、西安交通大学和西北工业大学承办,南京理工大学、陕西省图象图形学学会、陕西省生物医学工程学会协办,陕西省科学技术协会支持。包括于起峰院士、郑海荣院士、焦李成教授、王大轶研究员和虞晶怡教授在内的多位知名学者将作主旨报告,带来前沿的学术分享。大会期间将举办25场学术论坛、7场特色论坛和2场企业论坛,汇聚2000余名专家学者,构建开放创新、交叉融合的交流平台。

在此盛会上,合合信息的智能创新事业部研发总监常扬发表演讲。常扬老师分享了合合信息在文档解析技术方面的最新研究成果,探讨如何利用这些技术加速大模型的训练和应用。文档解析技术在大模型发展中扮演着至关重要的角色,尤其是在应对训练Token耗尽、语料质量要求高和解析不精准等挑战,高效获取高质量数据的方法,包括文档元素识别、版面正确解析和转化速度快等关键技术。本文将对常扬老师的演讲进行详细展开。

当前大模型训练和应用面临的问题

训练Token耗尽

大模型(如GPT-4、BERT等)在训练过程中需要处理大量的文本数据,这些数据被分解成更小的单位,称为Tokens。每个Token代表一个词、词的一部分或一个标点符号。随着模型变得越来越复杂,对数据的需求也随之增加,训练Token的耗尽成为一个主要问题。这意味着模型在训练过程中会消耗大量的Tokens,如果Tokens不足,模型的训练效果会受到限制。

训练语料质量要求高

高质量的训练语料是确保大模型性能的关键。低质量或噪声数据可能会导致模型学习到错误的信息,从而影响其性能。高质量语料需要具备准确性、丰富性和多样性,确保模型能够理解和生成高质量的语言。

LLM文档问答应用中文档解析不精准

在大模型的应用中,如文档问答(Document QA)系统,文档解析的精准度至关重要。文档解析不精准会导致模型无法正确理解文档内容,影响问答的准确性和用户体验。例如,当文档中的表格、公式、图表等复杂元素不能被正确解析时,模型可能会提供错误或不完整的答案。

合合信息的文档解析技术

合合信息在文档解析技术方面进行了深入的研究和开发,其核心研究方向包括多文档元素识别、版面分析和高性能的文档解析技术。这些技术不仅提高了文档解析的精度和效率,还为大模型的训练和应用提供了有力的支持。

1. 具备多文档元素识别能力

多文档元素识别能力是指系统能够识别并区分文档中不同类型的元素,如表格、段落、公式、标题等。每种元素在文档中都有其特定的结构和语义,准确识别这些元素是文档解析的基础。

技术实现

  • 深度学习模型:利用卷积神经网络(CNN)和循环神经网络(RNN)等深度学习模型,训练系统识别不同的文档元素。
  • 特征提取:通过图像处理技术提取表格线条、段落边界、公式符号等特征,以提高识别的准确性。
  • 标注数据集:构建大型标注数据集,包含多种文档元素的标注信息,用于模型训练和验证。 应用场景:
  • 文档自动化处理:在办公自动化、电子档案管理等场景中,实现自动化的文档分类和元素提取。
  • 教育和科研:识别学术论文中的图表和公式,辅助科研数据的整理和分析。

2. 具备版面分析能力

版面分析能力是指系统能够正确解析文档的版式布局,识别文档中的栏、节、段等布局结构。复杂的文档版式,如双栏、三栏和文表混合布局,给解析带来极大挑战。

技术实现

  • 物理版面分析:使用基于回归的单阶段检测模型(如Faster R-CNN、YOLO)检测文档中的物理布局元素(如栏、节)。
  • 逻辑版面分析:通过语义分析技术,理解文档的语义结构和层次关系,将不同的文字块组织成段落、列表等语义单元。
  • 混合方法:结合物理和逻辑版面分析方法,提升对复杂文档版式的解析能力。 应用场景:
  • 出版和印刷:解析书籍、报纸、杂志等出版物的版面结构,优化排版和印刷流程。
  • 档案数字化:对纸质档案进行数字化处理,保持原始版面布局,提高数字档案的可读性和可用性。

3. 高性能的文档解析

高性能的文档解析技术能够快速处理和转化大规模文档,尤其是上百页的PDF文档,确保还原正确的阅读顺序,避免混乱的语序。

技术实现

  • 并行处理技术:利用多线程和分布式计算技术,加快大规模文档的解析速度。
  • 优化算法:优化文档解析算法,提高处理效率,减少时间消耗。
  • 硬件加速:借助GPU加速技术,进一步提升文档解析的性能。 应用场景:
  • 大数据处理:在金融、法律、医疗等领域,快速解析和处理大量文档,提高数据处理效率。
  • 实时应用:在实时文档问答和即时信息提取等应用中,提供快速、准确的文档解析服务。

4. 高精准、高效率的文档解析

文档解析的精准度和效率是衡量技术性能的重要指标。合合信息的文档解析技术能够提供高精准、高效率的解析结果,适用于大模型的训练和应用场景。

技术实现

  • 精细化模型训练:通过精细化的模型训练和调优,提高文档解析的准确性。
  • 错误纠正机制:引入错误检测和纠正机制,自动识别和修正解析过程中的错误。
  • 用户反馈系统:利用用户反馈信息,持续优化和改进解析算法。 应用场景:
  • 大模型训练:在大模型训练过程中,提供高质量的训练数据,提升模型性能。
  • 知识库问答:在知识库问答系统中,快速准确地解析文档内容,提供高质量的问答服务。

文档多板式部分示例

文档解析典型技术难点

在文档解析过程中,技术难点众多,涉及文档元素的遮盖重叠、复杂版式、多样的文档元素、页眉页脚、多栏布局与表格、无线表格与合并单元格,以及各种公式的识别和处理。以下是对这些技术难点的详细列举。

  1. 元素遮盖重叠:文档中的各种元素(如文字、表格、公式等)可能会相互遮挡或重叠,给解析带来挑战。
  2. 复杂版式:文档可能采用双栏、跨页、三栏等复杂的版式布局,需要准确识别和分析这些版式结构。
  3. 元素本身的多样性:不同类型的文档元素(如标题、段落、表格、公式等)具有不同的特点,需要针对性地进行识别和分析。
  4. 页眉页脚的复杂形式:页眉页脚的形式可能多种多样,需要准确识别并区分。
  5. 多栏布局及其与表格的影响:多栏布局以及多栏中插入表格会对文档解析带来额外的挑战。
  6. 无线表格与合并单元格:无线表格与合并单元格的识别。
  7. 各种公式:单行公式、行内公式、表格内公式等 元素重叠、本身多样性、复杂板式示例

元素重叠、本身多样性、复杂板式示例

单行、行内、表格内公式示例

合合信息提出的文档解析技术解决方案

文档图像预处理算法框架

主要包括以下几点

  • 区域提取: 提取文档区域
  • 干扰去除: 去除手指、阴影、摩尔纹等干扰
  • 形变矫正: 包括倾斜透视矫正、弯曲矫正等
  • 图像恢复: 阴影去除、摩尔纹去除
  • 图像增强: 增强锐化等操作

图像文档弯曲矫正算法

  1. 形变文档图像建模
  • 使用偏移场来建模形变文档图像
  • 通过DocUNet网络进行形变矫正
  1. 空间变换
  • 根据偏移场信息对图像进行空间变换,完成弯曲矫正
  1. 边缘填充
  • 使用Inpainting技术对矫正后的图像进行边缘填充

图像文档干扰去除算法

  1. 文档图像预处理
  • 使用U2net卷积网络进行背景提取
  • 通过信息融合和干扰去除模块去除摩尔纹、光照影响等干扰
  1. 干扰去除算法效果
  • 可以有效去除手指、阴影等干扰,提高文档图像的质量

文档图像预处理算法整体效果如下

版面分析算法框架

物理版面分析 - 文档布局分析

  • 使用基于回归的单阶段检测模型,如FasterRCNN、YOLO等,对文档中的各种布局元素进行检测和定位。
  • 检测模型可以对文档中的栏(column)、节(section)等布局要素进行识别。

逻辑版面分析 - 语义结构分析

逻辑版面分析算法主要关注文档的语义结构和布局关系,通过建立层级概念和建模布局关系,实现对文档逻辑结构的分析和理解。将不同的文字块根据语义关系建模,形成文档的层次结构,如页(page)、段落(paragraph)、列表(list)等。

版面分析算法的发展

合合信息在近期的研究发现,真实世界的文档布局类型非常丰富,无法简单地用单栏、双栏等类别来定义。 例如下面列举的,目录,报纸,试卷等。所以判别式的技术路线,可以处理好大部分的文档,还无法真正对真实世界中各式各样的文档进行良好的版面分析。

近年来的开放词汇目标检测(OVD),视觉语义对齐(Alignment)等工作,以及生成式模型等前沿进展,都会给版面分析带来新的研究思路。

Textln 文档解析效果

总结

常扬老师在CCIG 2024大会上的演讲深入探讨了合合信息在文档解析技术方面的突破性进展。这些技术不仅解决了大模型训练和应用中的诸多挑战,还大大提升了文档解析的效率和精度。通过先进的图像预处理、版面分析和语义结构分析,合合信息为大模型在文档问答、知识库问答等应用场景中的表现提供了坚实的技术支持。期待这些创新技术能够为未来的研究和产业应用带来更多可能性。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
签证原因无法参加ICLR 2019,研究者请愿不在美国举办CS大会
随着人工智能热度持续增加,来自全球各地的研究科学家都在积极参与学术会议。近几年,CVPR、NeurIPS 这样的顶级会议每年都能吸引到 5000-8000 人参会。
机器之心
2019/05/14
9860
签证原因无法参加ICLR 2019,研究者请愿不在美国举办CS大会
尖端AI学术会议NIPS改名风波:拒绝性别歧视
在AI和机器学习领域最重要的会议之一:神经信息处理系统大会(NIPS)目前正在考虑更改其名称,部分原因是首字母缩略词的内涵具有性别歧视意味,主要针对英语使用者。在几次公开呼吁更改名称后,大会于4月份宣布他们正在考虑更改名称,并很快就此事向社群进行咨询。
AiTechYun
2018/08/16
5310
尖端AI学术会议NIPS改名风波:拒绝性别歧视
在哈佛的一场闭门会上,专家说全球各国都应设置“人工智能部长”
原文刊载于 Futurism 维金 编译整理 量子位 出品 | 公众号 QbitAI 本周,全球各国的行业领导者参加了一场关于全球范围内人工智能监管的闭门会议。与会者包括50多名全球最主要的人工智能专
量子位
2018/03/21
5020
在哈佛的一场闭门会上,专家说全球各国都应设置“人工智能部长”
机器学习中的女性:改变人工智能的面貌
机器学习女性大会(Women in Machine Learning Conference)在过去10年里一直是一个非常重要的网络,将计算机科学领域的女性少数群体连接到一起。 而这个想法诞生在一个酒店房间里。 2005年,机器学习研究员Hanna Wallach参加NIPS大会时,发现自己竟然被安排和几名女性同行住在一间房。自2001年以来,Wallach一直在机器学习领域工作,参加了许许多多的大会。但这还是她第一次与研究机器学习的女性同住。机器学习作为一门学科,其研究人员绝大多数都是男性。据Wallach
新智元
2018/03/23
7530
机器学习中的女性:改变人工智能的面貌
Google大牛涉嫌性骚扰被停职,NIPS官方致歉,传闻多时的AI圈黑幕终于被撕开
编译 | reason_W 【营长有话说】今天的话题,噱头的外表下,有点沉重。营长此前也采访过众多学术界和工业界的领军人物,他们学识渊博,为人师表,谈吐之间是胸有诗书气自华的涵养与豁达,也有家国天下的豪气万丈与当仁不让。可是,在营长如此敬仰的学术圈与顶级科技公司,竟然屡屡发生性骚扰事件,这是在用学术和职位的权利表达“女性不过是附庸,不用太尊重”的隐含意义吗?这是因为社会给了他们太多的期待,捧得太高,造就的心理优越感吗?这就是被给予敬仰的精英阶层的自我修养吗? 有人的地方就有江湖,人性有着最不可低估的原罪
AI科技大本营
2018/04/27
5430
Google大牛涉嫌性骚扰被停职,NIPS官方致歉,传闻多时的AI圈黑幕终于被撕开
被机器学习遗忘的大洲:非洲正尝试建立自己的“NeurIPS会议”
没有饥寒交迫的难民、连天的炮火或者龟裂的土地。这里最吸引人眼球的是一张张色彩斑斓的海报,标注出各类不同的机器学习系统,例如预测土壤营养,判断农民是否会偿还贷款,以及如何让自动驾驶汽车在开罗熙熙攘攘的街道上行驶。
大数据文摘
2019/10/15
4890
AI顶会正变身商展,会将不会,还NeurIPS、ICML本来面貌!
出去刷个牙回来就没了票,研究人员想参加参加不了,看热闹的外行人倒是挤来一堆。Poster Session 熙熙攘攘,但真正在谈论文的人却没有几个。Expo 行业展厅花枝招揽,企业酒会觥筹交错……
新智元
2018/12/29
8090
计算机视觉相关会议、期刊简介
ICCV 的全称是 IEEE International Conference on Computer Vision,即国际计算机视觉大会,由IEEE主办,与计算机视觉模式识别会议(CVPR)和欧洲计算机视觉会议(ECCV)并称计算机视觉方向的三大顶级会议,被澳大利亚ICT学术会议排名和中国计算机学会等机构评为最高级别学术会议,在业内具有极高的评价。不同于在美国每年召开一次的CVPR和只在欧洲召开的ECCV,ICCV在世界范围内每两年召开一次。ICCV论文录用率非常低,是三大会议中公认级别最高的。ICCV会议时间通常在四到五天,相关领域的专家将会展示最新的研究成果。该会议由美国电气和电子工程师学会(IEEE,Institute of Electrical & Electronic Engineers)主办,主要在欧洲、亚洲、美洲的一些科研实力较强的国家举行。作为世界顶级的学术会议,首届国际计算机视觉大会于1987年在伦敦揭幕,其后两年举办一届。
Natalia_ljq
2020/06/03
1.4K0
疫情肆虐下,中国顶尖学者跨时区“云参与”AAAI大会,多场国际技术峰会受影响
2月7日开始,今年首个全球顶级人工智能峰会AAAI将在美国纽约召开。由于冠状病毒及美国禁令,约800位来自中国大陆的与会者将无法出席这次会议,包括首位AAAI华人主席、香港科技大学教授杨强。
大数据文摘
2020/02/21
5760
KDD 2018 的首个「深度学习日」,要让数据挖掘会议更「纯粹」
AI 科技评论按:深度学习近年来对数据科学产生了革命性的影响。基于计算能力的提升、数据来源的延展及编程框架的进步,深度神经网络已经无处不在。目前深度学习的相关方法在如计算机视觉、语音识别及生成、自然语言处理等多个领域取得了领先进展,也正在将它的应用领域延展至其它研究当中,取得更大的应用优势。
AI科技评论
2018/09/21
4880
KDD 2018 的首个「深度学习日」,要让数据挖掘会议更「纯粹」
2018年机器学习和数据科学重要会议概览
来源:KDnuggets 编译:Bing 一月 美洲 BAFI 2018:金融和工业商业分析第三次会议(3rd Conf. on Business Analytics in Finance and Industry) 时间:1月17日—19日 地点:智利,圣地亚哥 简介:BAFI 2018希望将数据科学及相关领域的研究者和开发者聚集在一起,将各自的技术应用于不同的领域,以推动学术交流与合作。明年,BAFI将重点关注在大数据集中提取信息的方法论发展,以及金融、零售和电信等
企鹅号小编
2018/01/16
1.5K0
2018年机器学习和数据科学重要会议概览
盘点52个全球人工智能和机器学习重要会议
选自Data Pipeline 机器之心编译 机器学习和人工智能是今天最热门的科技研究方向。随着行业的不断升温,越来越多的 AI 主题会议也层出不穷,在这些会议中,我们可以讨论近期技术的发展趋势,并与其他数据科学家、开发者与工业界人士交流意见。不管你是想时刻紧跟潮流,还是仅仅希望稍微了解一下人工智能,全世界每时每刻总有一个大会在等着你(比如后天即将开幕的 NIPS 2017)。本文将向你简要介绍 50 余场著名全球人工智能大会。 Notes:本文盘点未收录 CVPR、ACL、ICLR 和 EMNLP 等计算
机器之心
2018/05/09
1.3K0
盘点52个全球人工智能和机器学习重要会议
禁止与华为讨论技术标准?高通、英特尔3GPP上限制员工交流
据路透社报道,由于美国近期针对中国科技公司的黑名单事件,全球一些最大的科技公司正要求其员工不得私下与华为员工讨论技术和技术标准的相关问题。
机器之心
2019/06/14
4310
禁止与华为讨论技术标准?高通、英特尔3GPP上限制员工交流
会议整理 | 2023年度国内外图像图形学术会议
2023年第二届云计算、计算机视觉和图像处理亚洲会议(3CVIP 2023)将于2023年3月17-19日在中国上海举行。它由国际应用计算学会(ISAC)和工程师技术协会(T.I.E.)赞助。
一点人工一点智能
2023/02/22
2.6K0
会议整理 | 2023年度国内外图像图形学术会议
全球顶级AI专家闭门会议:每个国家都该设“人工智能部长”
来源:Futurism 作者:张乾 【新智元导读】这个周末,来自IBM、Facebook、亚马逊以及联合国等全球50多位顶尖思想家、各级政府官员和AI参与者悄悄开了一场闭门会议,讨论了AI给人类社会带来的挑战,并试图寻找解决方案。会议并没有达成有成效的结果,但这有可能是全球共同治理人工智能的开端。 当人类不再是地球上最智慧的生物的时候,人们的担忧就开始了。 这个周末,一个人关于工智能全球治理的闭门会议悄悄召开,会上聚集了包括IBM、Facebook、亚马逊以及联合国等全球50多位顶尖思想家、各级政府官员和A
新智元
2018/03/20
7540
全球顶级AI专家闭门会议:每个国家都该设“人工智能部长”
史上最全人工智能和机器学习会议大盘点
大名鼎鼎的神经信息处理系统大会(Neural Information Processing
IT阅读排行榜
2018/08/17
1.6K0
史上最全人工智能和机器学习会议大盘点
20190707
(注:该文计划发布到DDD China知乎,看看译文哪里不太通顺?该书电子版可以在这里免费购买,只要把价格滚轮拨到0即可。)
程序员吾真本
2019/07/09
6360
重要通知:动物森友会首届「AI 顶会」ACAI 2020即将召开
众所周知,因为疫情的原因,ICML、ICLR、CVPR 等人工智能顶级会议都已经改为了线上举办。
机器之心
2020/05/06
7930
史上首个线上 AI 顶会 ICLR 2020 结束,参会者数量翻番:仿佛看到了未来
人人都是云参会,因为新冠疫情被迫线上举行的 ICLR 2020 成为了历届规模最大的会议,参加人数暴增了一倍。
机器之心
2020/05/19
2970
史上首个线上 AI 顶会 ICLR 2020 结束,参会者数量翻番:仿佛看到了未来
大会 | 第30届IROS正式开幕,深度学习当道的机器人会议都有什么精彩亮点?(多图)
AI科技评论按:2017年9月25日,全球机器人规模最大的学术会议之一、IROS(International Conference on Intelligent Robots and Systems,
AI科技评论
2018/03/14
8060
大会 | 第30届IROS正式开幕,深度学习当道的机器人会议都有什么精彩亮点?(多图)
推荐阅读
签证原因无法参加ICLR 2019,研究者请愿不在美国举办CS大会
9860
尖端AI学术会议NIPS改名风波:拒绝性别歧视
5310
在哈佛的一场闭门会上,专家说全球各国都应设置“人工智能部长”
5020
机器学习中的女性:改变人工智能的面貌
7530
Google大牛涉嫌性骚扰被停职,NIPS官方致歉,传闻多时的AI圈黑幕终于被撕开
5430
被机器学习遗忘的大洲:非洲正尝试建立自己的“NeurIPS会议”
4890
AI顶会正变身商展,会将不会,还NeurIPS、ICML本来面貌!
8090
计算机视觉相关会议、期刊简介
1.4K0
疫情肆虐下,中国顶尖学者跨时区“云参与”AAAI大会,多场国际技术峰会受影响
5760
KDD 2018 的首个「深度学习日」,要让数据挖掘会议更「纯粹」
4880
2018年机器学习和数据科学重要会议概览
1.5K0
盘点52个全球人工智能和机器学习重要会议
1.3K0
禁止与华为讨论技术标准?高通、英特尔3GPP上限制员工交流
4310
会议整理 | 2023年度国内外图像图形学术会议
2.6K0
全球顶级AI专家闭门会议:每个国家都该设“人工智能部长”
7540
史上最全人工智能和机器学习会议大盘点
1.6K0
20190707
6360
重要通知:动物森友会首届「AI 顶会」ACAI 2020即将召开
7930
史上首个线上 AI 顶会 ICLR 2020 结束,参会者数量翻番:仿佛看到了未来
2970
大会 | 第30届IROS正式开幕,深度学习当道的机器人会议都有什么精彩亮点?(多图)
8060
相关推荐
签证原因无法参加ICLR 2019,研究者请愿不在美国举办CS大会
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档