Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >CCIG 2024:合合信息文档解析技术突破与应用前景

CCIG 2024:合合信息文档解析技术突破与应用前景

原创
作者头像
海拥
发布于 2024-05-31 12:17:04
发布于 2024-05-31 12:17:04
1940
举报
文章被收录于专栏:全栈技术全栈技术

背景

2024年5月24日-26日于西安召开中国图象图形大会(CCIG 2024),此次大会由中国图象图形学学会主办,空军军医大学、西安交通大学和西北工业大学承办,南京理工大学、陕西省图象图形学学会、陕西省生物医学工程学会协办,陕西省科学技术协会支持。包括于起峰院士、郑海荣院士、焦李成教授、王大轶研究员和虞晶怡教授在内的多位知名学者将作主旨报告,带来前沿的学术分享。大会期间将举办25场学术论坛、7场特色论坛和2场企业论坛,汇聚2000余名专家学者,构建开放创新、交叉融合的交流平台。

在此盛会上,合合信息的智能创新事业部研发总监常扬发表演讲。常扬老师分享了合合信息在文档解析技术方面的最新研究成果,探讨如何利用这些技术加速大模型的训练和应用。文档解析技术在大模型发展中扮演着至关重要的角色,尤其是在应对训练Token耗尽、语料质量要求高和解析不精准等挑战,高效获取高质量数据的方法,包括文档元素识别、版面正确解析和转化速度快等关键技术。本文将对常扬老师的演讲进行详细展开。

当前大模型训练和应用面临的问题

训练Token耗尽

大模型(如GPT-4、BERT等)在训练过程中需要处理大量的文本数据,这些数据被分解成更小的单位,称为Tokens。每个Token代表一个词、词的一部分或一个标点符号。随着模型变得越来越复杂,对数据的需求也随之增加,训练Token的耗尽成为一个主要问题。这意味着模型在训练过程中会消耗大量的Tokens,如果Tokens不足,模型的训练效果会受到限制。

训练语料质量要求高

高质量的训练语料是确保大模型性能的关键。低质量或噪声数据可能会导致模型学习到错误的信息,从而影响其性能。高质量语料需要具备准确性、丰富性和多样性,确保模型能够理解和生成高质量的语言。

LLM文档问答应用中文档解析不精准

在大模型的应用中,如文档问答(Document QA)系统,文档解析的精准度至关重要。文档解析不精准会导致模型无法正确理解文档内容,影响问答的准确性和用户体验。例如,当文档中的表格、公式、图表等复杂元素不能被正确解析时,模型可能会提供错误或不完整的答案。

合合信息的文档解析技术

合合信息在文档解析技术方面进行了深入的研究和开发,其核心研究方向包括多文档元素识别、版面分析和高性能的文档解析技术。这些技术不仅提高了文档解析的精度和效率,还为大模型的训练和应用提供了有力的支持。

1. 具备多文档元素识别能力

多文档元素识别能力是指系统能够识别并区分文档中不同类型的元素,如表格、段落、公式、标题等。每种元素在文档中都有其特定的结构和语义,准确识别这些元素是文档解析的基础。

技术实现

  • 深度学习模型:利用卷积神经网络(CNN)和循环神经网络(RNN)等深度学习模型,训练系统识别不同的文档元素。
  • 特征提取:通过图像处理技术提取表格线条、段落边界、公式符号等特征,以提高识别的准确性。
  • 标注数据集:构建大型标注数据集,包含多种文档元素的标注信息,用于模型训练和验证。 应用场景:
  • 文档自动化处理:在办公自动化、电子档案管理等场景中,实现自动化的文档分类和元素提取。
  • 教育和科研:识别学术论文中的图表和公式,辅助科研数据的整理和分析。

2. 具备版面分析能力

版面分析能力是指系统能够正确解析文档的版式布局,识别文档中的栏、节、段等布局结构。复杂的文档版式,如双栏、三栏和文表混合布局,给解析带来极大挑战。

技术实现

  • 物理版面分析:使用基于回归的单阶段检测模型(如Faster R-CNN、YOLO)检测文档中的物理布局元素(如栏、节)。
  • 逻辑版面分析:通过语义分析技术,理解文档的语义结构和层次关系,将不同的文字块组织成段落、列表等语义单元。
  • 混合方法:结合物理和逻辑版面分析方法,提升对复杂文档版式的解析能力。 应用场景:
  • 出版和印刷:解析书籍、报纸、杂志等出版物的版面结构,优化排版和印刷流程。
  • 档案数字化:对纸质档案进行数字化处理,保持原始版面布局,提高数字档案的可读性和可用性。

3. 高性能的文档解析

高性能的文档解析技术能够快速处理和转化大规模文档,尤其是上百页的PDF文档,确保还原正确的阅读顺序,避免混乱的语序。

技术实现

  • 并行处理技术:利用多线程和分布式计算技术,加快大规模文档的解析速度。
  • 优化算法:优化文档解析算法,提高处理效率,减少时间消耗。
  • 硬件加速:借助GPU加速技术,进一步提升文档解析的性能。 应用场景:
  • 大数据处理:在金融、法律、医疗等领域,快速解析和处理大量文档,提高数据处理效率。
  • 实时应用:在实时文档问答和即时信息提取等应用中,提供快速、准确的文档解析服务。

4. 高精准、高效率的文档解析

文档解析的精准度和效率是衡量技术性能的重要指标。合合信息的文档解析技术能够提供高精准、高效率的解析结果,适用于大模型的训练和应用场景。

技术实现

  • 精细化模型训练:通过精细化的模型训练和调优,提高文档解析的准确性。
  • 错误纠正机制:引入错误检测和纠正机制,自动识别和修正解析过程中的错误。
  • 用户反馈系统:利用用户反馈信息,持续优化和改进解析算法。 应用场景:
  • 大模型训练:在大模型训练过程中,提供高质量的训练数据,提升模型性能。
  • 知识库问答:在知识库问答系统中,快速准确地解析文档内容,提供高质量的问答服务。

文档多板式部分示例

文档解析典型技术难点

在文档解析过程中,技术难点众多,涉及文档元素的遮盖重叠、复杂版式、多样的文档元素、页眉页脚、多栏布局与表格、无线表格与合并单元格,以及各种公式的识别和处理。以下是对这些技术难点的详细列举。

  1. 元素遮盖重叠:文档中的各种元素(如文字、表格、公式等)可能会相互遮挡或重叠,给解析带来挑战。
  2. 复杂版式:文档可能采用双栏、跨页、三栏等复杂的版式布局,需要准确识别和分析这些版式结构。
  3. 元素本身的多样性:不同类型的文档元素(如标题、段落、表格、公式等)具有不同的特点,需要针对性地进行识别和分析。
  4. 页眉页脚的复杂形式:页眉页脚的形式可能多种多样,需要准确识别并区分。
  5. 多栏布局及其与表格的影响:多栏布局以及多栏中插入表格会对文档解析带来额外的挑战。
  6. 无线表格与合并单元格:无线表格与合并单元格的识别。
  7. 各种公式:单行公式、行内公式、表格内公式等 元素重叠、本身多样性、复杂板式示例

元素重叠、本身多样性、复杂板式示例

单行、行内、表格内公式示例

合合信息提出的文档解析技术解决方案

文档图像预处理算法框架

主要包括以下几点

  • 区域提取: 提取文档区域
  • 干扰去除: 去除手指、阴影、摩尔纹等干扰
  • 形变矫正: 包括倾斜透视矫正、弯曲矫正等
  • 图像恢复: 阴影去除、摩尔纹去除
  • 图像增强: 增强锐化等操作

图像文档弯曲矫正算法

  1. 形变文档图像建模
  • 使用偏移场来建模形变文档图像
  • 通过DocUNet网络进行形变矫正
  1. 空间变换
  • 根据偏移场信息对图像进行空间变换,完成弯曲矫正
  1. 边缘填充
  • 使用Inpainting技术对矫正后的图像进行边缘填充

图像文档干扰去除算法

  1. 文档图像预处理
  • 使用U2net卷积网络进行背景提取
  • 通过信息融合和干扰去除模块去除摩尔纹、光照影响等干扰
  1. 干扰去除算法效果
  • 可以有效去除手指、阴影等干扰,提高文档图像的质量

文档图像预处理算法整体效果如下

版面分析算法框架

物理版面分析 - 文档布局分析

  • 使用基于回归的单阶段检测模型,如FasterRCNN、YOLO等,对文档中的各种布局元素进行检测和定位。
  • 检测模型可以对文档中的栏(column)、节(section)等布局要素进行识别。

逻辑版面分析 - 语义结构分析

逻辑版面分析算法主要关注文档的语义结构和布局关系,通过建立层级概念和建模布局关系,实现对文档逻辑结构的分析和理解。将不同的文字块根据语义关系建模,形成文档的层次结构,如页(page)、段落(paragraph)、列表(list)等。

版面分析算法的发展

合合信息在近期的研究发现,真实世界的文档布局类型非常丰富,无法简单地用单栏、双栏等类别来定义。 例如下面列举的,目录,报纸,试卷等。所以判别式的技术路线,可以处理好大部分的文档,还无法真正对真实世界中各式各样的文档进行良好的版面分析。

近年来的开放词汇目标检测(OVD),视觉语义对齐(Alignment)等工作,以及生成式模型等前沿进展,都会给版面分析带来新的研究思路。

Textln 文档解析效果

总结

常扬老师在CCIG 2024大会上的演讲深入探讨了合合信息在文档解析技术方面的突破性进展。这些技术不仅解决了大模型训练和应用中的诸多挑战,还大大提升了文档解析的效率和精度。通过先进的图像预处理、版面分析和语义结构分析,合合信息为大模型在文档问答、知识库问答等应用场景中的表现提供了坚实的技术支持。期待这些创新技术能够为未来的研究和产业应用带来更多可能性。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
亮相CCIG2024,合合信息文档解析技术破解大模型语料“饥荒”难题
近日,2024中国图象图形大会在古都西安盛大开幕。本届大会由中国图象图形学学会主办,空军军医大学、西安交通大学、西北工业大学承办,通过二十多场论坛、百余项成果,集中展示了生成式人工智能、大模型、机器学习、类脑计算等多个图像图形领域的进展。
合合技术团队
2024/05/29
1460
亮相CCIG2024,合合信息文档解析技术破解大模型语料“饥荒”难题
加速文档解析与向量化技术:实现多模态大模型训练与应用
本文介绍了当前大型模型文档解析面临的问题,包括版面检测、阅读顺序还原、表格还原和公式识别等技术挑战。针对这些问题,介绍了TextIn文档解析技术和文字向量化技术的应用,以及TextIn平台的产品和服务。
默 语
2024/11/20
2060
加速文档解析与向量化技术:实现多模态大模型训练与应用
文档解析之困 | 大模型时代,复杂文档解析如何更精准?
前不久,我们推出了腾讯云大模型知识引擎,最快只需5分钟,客户就能轻松搭建企业专属知识服务助手。作为一个知识引擎,首先就得看懂,且理解「海量知识」——特别是复杂多样的PDF、图片、表格等格式文件!
腾讯云AI
2024/10/18
1.3K0
文档解析之困 | 大模型时代,复杂文档解析如何更精准?
深度学习助力版面分析技术,图像“还原”有方
近期,2023年度视觉与学习青年学者研讨会 (Vision And Learning SEminar, VALSE) 在无锡圆满落幕,此研讨会是图像视觉领域的重磅会议。作为智能文档处理领域代表的合合信息自然不会缺席,合合信息出席会议并进行智能文档处理技术研发与实践成果分享,重点介绍了其在版面分析与文档还原技术实现上的新突破。
码农飞哥
2023/09/03
8450
深度学习助力版面分析技术,图像“还原”有方
文档解析技术发展回顾与路径思考
随着全球数字化进程的加速,非结构化数据量呈现爆炸式增长,从纸质文档到电子文件的转变不仅意味着信息存储方式的革新,更标志着旧数据被赋予了新的生命力。文档智能技术的发展使得大量以传统形式保存的信息资源能够“活化”再利用,这些技术将图像、手写笔记等非结构化数据转化为计算机可处理和理解的结构化格式,从而极大地拓展了数据的应用场景。得益于深度学习算法的进步,文档解析技术在文档数字化、票据自动化处理、笔迹录入等多个领域取得了显著成就。例如,在金融行业,智能文档处理系统可以快速准确地识别并提取票据中的关键信息,大大提高了工作效率;在历史文献保护方面,先进的文档分析工具能够帮助学者们解读古老文本,为文化传承贡献力量。文档智能技术正以其高效便捷的特点,成为推动各行业数字化转型的重要力量。
合合技术团队
2024/12/25
1760
文档解析技术发展回顾与路径思考
多模态产品在智能文档处理应用的展望------以TextIn模型为例
   第十四届视觉与学习青年学者研讨会(VALSE 2024)于5月5日-7日在山城重庆渝北区悦来国际会议中心举办。大会聚焦计算机视觉、模式识别、多媒体和机器学习等领域的国际前沿和热点方向。大会中,合合信息智能创新事业部研发总监常扬做了"文档解析与向量化技术加速多模态大模型训练与应用"专题汇报,主要讲解TextIn文档解析技术和高精度文本向量化模型的技术特征。下面为大家分享一下这次报告的主要内容。
洁洁
2024/05/14
3270
多模态产品在智能文档处理应用的展望------以TextIn模型为例
解析稳定率达99.99%!合合信息“大模型加速器2.0”助力AI打破“幻觉”
随着大模型在社会应用中逐渐普及,人们在享受便利的同时,也面临着“AI 幻觉”产生的风险。训练数据是影响大模型“认知能力”的关键要素,近期,上海合合信息科技股份有限公司(简称“合合信息”)TextIn“大模型加速器 2.0”版本正式上线,基于领先的智能文档处理技术,对复杂文档的版式、布局和元素进行精准解析及结构化处理,从数据源头降低大模型“幻觉”风险,让大模型在与人类的沟通中“更靠谱”。
合合技术团队
2025/03/21
1020
解析稳定率达99.99%!合合信息“大模型加速器2.0”助力AI打破“幻觉”
合合信息“TextIn大模型加速器 2.0”版本来了:文档解析和图表解析能力全面升级
在日常工作中,我们常常遇到无法直接复制的文档内容或图片内容,这些内容通常需要进行识别和解析。一个典型的例子是,当我们需要将折线图转化为表格数据时,手动操作既繁琐又容易出错。近期,我发现合合信息 TextIn 推出了全新解决方案——大模型加速器 2.0,专门解决这一问题。通过大规模预训练的基座模型,TextIn采用生成式学习方法,从图表的布局、线条、颜色、标记等多个维度进行深度建模。这样,它能够准确提取图表中的关键数据点、坐标轴信息、图例说明等内容,并将其转化为大模型能够理解的Markdown格式,在处理“柱形图+折线图”等复合式图表时,图表解析模块不仅能够精准解析不同类型图表的数据,还能够将这些图表数据还原为完整的Excel表格,进一步展示了文档解析引擎强大的“理解力”。
猫头虎
2025/03/28
1022
IntFinQ知识库体验:大模型加速器2.0,助力企业走向文档智能化
在数字化转型浪潮中,企业文档处理正面临「数据爆炸」与「认知过载」的双重挑战。合合信息Textin最新推出的「大模型加速器2.0」正在重新定义企业级文档智能化的边界。本文将带您深入体验这场文档认知革命的核心技术突破。
Damon小智
2025/04/02
320
IntFinQ知识库体验:大模型加速器2.0,助力企业走向文档智能化
如何提升智能文档处理识别精度?合合信息“版面分析”实现新突破
春季是繁忙的播种季,学生党迎来了开学季和紧张的研究生复试,职场人士也需要处理新签业务带来的大量不同类型的文件,比如合同、发票、档案等。这些文件在被拍照、扫描成电子文档的过程中,时常存在漏字、错位现象。究其原因,有个看似“冷门”却关键的技术点极大地影响了文字识别效果,这个技术便是“版面分析”。
合合技术团队
2023/04/14
1.4K0
如何提升智能文档处理识别精度?合合信息“版面分析”实现新突破
大模型时代下智能文档处理核心技术大揭秘
随着人工智能技术的发展,智能图像处理成为了一种风靡全球的热门技术。智能图像处理可以帮助我们从大量的图像数据中提取最有价值的信息,为医疗、军事、安防等领域带来了重大的贡献。然而,图像处理的难点也随之而来,下面我们来简单介绍一下图像处理的难点以及解决方式的比对。
机器学习AI算法工程
2023/11/22
6200
大模型时代下智能文档处理核心技术大揭秘
多模态大模型「卷」向智能文档,只为解放打工人的双手
文档是重要的信息存储载体之一,人们每天接触和使用文档的频率也越来越高。相对应地,用户对文档处理和图像内容的安全要求逐渐提升,智能文档技术面临的挑战也更大。
AI科技评论
2023/08/08
7870
多模态大模型「卷」向智能文档,只为解放打工人的双手
DocFlow票据AI自动化处理工具:出色的文档解析+抽取能力,提升企业文档数字化管理效能
近期,DocFlow票据自动化产品正式在TextIn平台上线。DocFlow是一款票据AI自动化处理工具,支持不同版式单据智能分类扩展,可选功能插件配置流程,满足多样业务场景。
合合技术团队
2024/12/12
2010
DocFlow票据AI自动化处理工具:出色的文档解析+抽取能力,提升企业文档数字化管理效能
达观高翔:智能文档处理IDP关键技术与实践
什么是智能文档处理?针对文本数据处理尤其是纯文本,大家通常会想到使用自然语言处理(Natural language processing,NLP)技术来解决语义理解及分析处理工作。关于自然语言处理技术的研究有很长历史,针对不同层面文本处理和分析有很多技术点,常见技术例如分词与词性标注、命名实体识别、句法结构分析、文本分类、文本摘要等功能。
用户10103085
2022/11/03
2K0
达观高翔:智能文档处理IDP关键技术与实践
文档数字化采集与智能处理:图像弯曲矫正技术概述
由于电子文档更容易存档、编辑、签名和共享的特点,文档电子化的趋势逐年显著,而随着高质量摄像头在手机等移动设备上的普及,利用移动设备对文档进行数字化采集已经非常普遍。
合合技术团队
2024/11/13
1980
文档数字化采集与智能处理:图像弯曲矫正技术概述
中文文档版式分析模型
在当今数字化时代,文档版式分析是信息提取和文档理解的关键步骤之一。文档版式分析,也称为文档图像分析或文档布局分析,是指从扫描的文档图像中识别和提取文本、图像、表格和其他元素的过程。这项技术在自动化文档处理、电子数据交换、历史文档数字化等领域有着广泛的应用。
机器学习AI算法工程
2024/06/21
3010
中文文档版式分析模型
AIGC席卷智慧办公,金山办公如何架构文档智能识别与理解的通用引擎?
如今,智慧办公是企业办公领域数字化转型的题中之义。作为国内最早开发的软件办公系统之一,金山办公如何应用深度学习实现复杂场景文档图像识别和技术理解?本文将从复杂场景文档的识别与转化、非文本元素检测与文字识别、文本识别中的技术难点等多个方面进行深度解析。 作者 | 金山办公CV技术团队 出品 | 新程序员 在办公场景中,文档类型图像被广泛使用,比如证件、发票、合同、保险单、扫描书籍、拍摄的表格等,这类图像包含了大量的纯文本信息,还包含有表格、图片、印章、手写、公式等复杂的版面布局和结构信息。早前这些信息均采用
AI科技大本营
2023/04/10
2.3K0
AIGC席卷智慧办公,金山办公如何架构文档智能识别与理解的通用引擎?
用AI“读懂”专业文档资料,合合信息助力出海企业规避侵权“陷阱”
近年来,在“走出去”政策支持下,企业出海持续升温。根据中国上市公司协会数据,2024上半年我国上市公司实现海外业务收入3.83万亿元,同比增长12.84%。随着出海规模不断扩大,企业跨国间的交流也变得日益频繁。为了应对提交出口产品注册资料、制作海外项目竞标标书等场景,合合信息智能文档处理技术助力企业解析、翻译电子文档,推进出海项目进程。
合合技术团队
2024/12/02
1470
用AI“读懂”专业文档资料,合合信息助力出海企业规避侵权“陷阱”
计算机视觉重磅会议VAlSE2023召开,合合信息分享智能文档处理技术前沿进展
近期,2023年度视觉与学习青年学者研讨会 (Vision And Learning SEminar, VALSE) 圆满落幕。会议由中国人工智能学会、中国图象图形学学会主办,江南大学和无锡国家高新技术产业开发区管理委员会承办。超五千名专家学者、知名高校师生以及来自OPPO、华为、百度、合合信息等科技企业的研发人员齐聚大会,共探计算机视觉、图像处理、模式识别与机器学习前沿技术的发展与应用。
合合技术团队
2023/06/16
4020
计算机视觉重磅会议VAlSE2023召开,合合信息分享智能文档处理技术前沿进展
企业流程自动化:AI技术加持,解锁高效运营
随着人工智能技术的迅猛发展,企业数据治理正站在一个全新的起点上。在数字化转型的大背景下,企业不仅需要处理传统结构化数据,还面临着海量的非结构化数据挑战。当社交媒体、物联网设备与移动应用逐渐成为生活常态,非结构化数据的数量呈现出爆炸式增长,这些数据包括文本、图片、视频、音频等多种形式,它们不遵循固定模式,难以用传统数据库管理,却蕴含着巨大的商业价值和决策潜力。
合合技术团队
2025/01/09
1540
企业流程自动化:AI技术加持,解锁高效运营
推荐阅读
亮相CCIG2024,合合信息文档解析技术破解大模型语料“饥荒”难题
1460
加速文档解析与向量化技术:实现多模态大模型训练与应用
2060
文档解析之困 | 大模型时代,复杂文档解析如何更精准?
1.3K0
深度学习助力版面分析技术,图像“还原”有方
8450
文档解析技术发展回顾与路径思考
1760
多模态产品在智能文档处理应用的展望------以TextIn模型为例
3270
解析稳定率达99.99%!合合信息“大模型加速器2.0”助力AI打破“幻觉”
1020
合合信息“TextIn大模型加速器 2.0”版本来了:文档解析和图表解析能力全面升级
1022
IntFinQ知识库体验:大模型加速器2.0,助力企业走向文档智能化
320
如何提升智能文档处理识别精度?合合信息“版面分析”实现新突破
1.4K0
大模型时代下智能文档处理核心技术大揭秘
6200
多模态大模型「卷」向智能文档,只为解放打工人的双手
7870
DocFlow票据AI自动化处理工具:出色的文档解析+抽取能力,提升企业文档数字化管理效能
2010
达观高翔:智能文档处理IDP关键技术与实践
2K0
文档数字化采集与智能处理:图像弯曲矫正技术概述
1980
中文文档版式分析模型
3010
AIGC席卷智慧办公,金山办公如何架构文档智能识别与理解的通用引擎?
2.3K0
用AI“读懂”专业文档资料,合合信息助力出海企业规避侵权“陷阱”
1470
计算机视觉重磅会议VAlSE2023召开,合合信息分享智能文档处理技术前沿进展
4020
企业流程自动化:AI技术加持,解锁高效运营
1540
相关推荐
亮相CCIG2024,合合信息文档解析技术破解大模型语料“饥荒”难题
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档