Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >用户的声音 | 文档结构化信息提取方案测评:LLM、开源模型部署与云端API,谁是合适选择?

用户的声音 | 文档结构化信息提取方案测评:LLM、开源模型部署与云端API,谁是合适选择?

原创
作者头像
合合技术团队
发布于 2025-02-19 03:29:37
发布于 2025-02-19 03:29:37
2160
举报

文档预处理之文本化

近日,我们收到来自专业用户的使用心得,通过测试浅析结构化信息提取技术,辅助完成技术选型。

结构化信息提取的重要性

数据作为大模型时代的核心生产资料,其结构化处理能力直接影响AI系统的实用价值。尽管知识图谱、RAG等技术依赖海量文本资源,但现实中的历史档案、法律文书等重要数据多以扫描件、图像等非结构化形式存在,导致信息抽取、语义解析等环节面临显著技术障碍。

当前结构化信息提取技术虽呈现多样化发展,但对于开发者而言,结构化信息提取的“落地”与“可用性”才是真正的考验,研究论文中的指标和高精度模型在生产环境中可能面临性能瓶颈、成本过高、部署难度大等现实挑战。

本文将梳理主流技术方案,立足实际需求,结合一系列实测数据与实践经验,评估各方法在不同场景下的表现与优劣势。从技术指标到生产可行性,我们将为开发者提供一份实用的兼顾算法效能与部署成本的参考指南。

评价标准

测评

使用的待测试pdf:随机选取的一份上交所上市公司的2023年年报,全文193页。

金融年报是电子文档中相对复杂的一类,文字密度大,表格复杂度高,标题层级多,对模型能力有较大考验。遂选取之作为测试素材。

基于大模型的识别方案举例

市面上流行的几个开源pdf转markdown方法,大体可以分为两种,一类走传统版面分析+公式表格识别+OCR方案,另一类则是走视觉大模型路线。

利用大模型执行pdf转markdown算是一种逻辑上比较容易的办法,借助大模型本身强大的视觉识别能力,进行力大砖飞的转换。

从原理上,这种方法可以自如地进行转换,同时可以在转换过程中保留尽可能多的视觉信息,基础的诸如标题层级,进阶的还可以对图片进行一定的语义解释。

视觉大模型的接口也容易获得,有条件的情况下可以本地部署。

本次实验采取识别能力靠前[2]且常用的gpt-4o模型配合 gptpdf 来进行实验:

测试

gptpdf的封装度较高,且依赖较少,一次pip即可安装。

如果是使用openai服务的话,只需填写上自己的key即可。如果自己有大模型部署的话,也可改成自己的代理地址,也可使用本地的视觉模型。

测试代码用的是单线程,由于速度较慢远低于预期,遂只拆出前30页进行测试。效果如下:

可以看到,问题还是比较多的,比如幻觉问题:

大模型幻觉出了一些奇怪的标题。

识别结构不稳定:

此处本应是一个表格。

我使用的是gptpdf默认的prompt,可能有优化空间。但是效果的确不尽如人意。

小结

名称

访问地址

文本正确性

表格正确性

标题正确性

识别速度

成本

本地部署

便捷使用

gptpdf

https://github.com/CosmosShadow/gptpdf

偶有差错

语义正确格式错误

基本无误

16s/页

本地算力/gpt4o 约0.112¥/页(含读取和输出)

可行(基于视觉大模型,显存要求高)

部署便捷

本次测试还有一些可以优化的点,例如使用经过调试的提示词,或者换用对中文视觉支持更好的大模型。但该方案整体上价格偏高,单管道处理速度也较慢,除非和一些基于大模型的预处理进行步骤合并,否则不推荐使用。

基于本地OCR的识别方案举例

相对视觉大模型方案,OCR方案则小巧且复杂,其使用较小的模型各司其职,并对结果进行拼接。其算力要求相对低的特点也使其适用于本地部署,一个广受好评的解决方案是MinerU,作为开源的数据提取工具,目前在github上已经有24.3k stars.

测试

minerU的安装相对复杂些,且如果要安装gpu版本需要额外的步骤。

该方案是完全开源的,好消息是有些组件可以根据需求定制化更改。坏消息是,可能有一些bug,需要查issues自行修复。

解析速度还算过关,在i7-2700+3090上运行,平均4.52s每页。在不同阶段使用的算力硬件也不同,多线程情况下速度或许会更快。

值得注意的是,由于markdown格式表格不易于显示复杂表,minerU的默认表格识别将会把表格转换为html格式,从纯文本打开的话会像是这样:

issues中有人给出了能转换为markdown格式的替代方案,但是这同样需要额外的配置,在此暂不讨论。 来看看效果:

标题只有一层,即是标题/不是标题。在表格识别能力上偏弱,偶尔会出现例如:

无限复读机;

换页时文本错误/表格结构错误。

小结

名称

访问地址

文本正确性

表格正确性

标题正确性

识别速度

成本

本地部署

便捷使用

MinerU

https://github.com/opendatalab/MinerU

基本正确

较差

只能简单区分是否为标题,且识别准确性不高

正相关于硬件算力(i7-2700+3090上4.52s/页)

本地部署(硬件折旧+电力损耗)

可本地部署

不甚便捷

大概是开源领域最好的ocr方案了,如果有本地算力且文件保密要求高的话还是比较推荐的。默认的html格式个人认为有些鸡肋,不能保证准确性,同时也不利于大模型读取。先前提到的转换为markdown格式的替代方案我也尝试过,能一定程度减少识别错误,但会增加使用难度,且还是有较多错误。

基于云端OCR的识别方案举例

如果项目没有本地部署需求,那么云端OCR是个好方案,价格相对大模型方法低廉许多,且响应速度快。横评了一众中文OCR方案,Textin的数据是最好的。

测试

速度奇快,一份193页的pdf文件仅消耗了13s,几乎是其余方案的百倍。 几乎没有错误,只是偶有标题会被漏标:

只有极复杂的表格才能使其产生小错误: 原表格:

识别后:

小结

名称

访问地址

文本正确性

表格正确性

标题正确性

识别速度

成本

本地部署

便捷使用

TextIn

https://www.textin.com/document/pdf_to_markdown

基本正确

基本正确

层级支持,偶有错误

极快,平均0.07s/页

0.05¥/页

可定制

非常便捷

综合下来是速度且效果最好的OCR方案了,适用大多数场景,非常推荐。

大结论

总表:

名称

访问地址

文本正确性

表格正确性

标题正确性

识别速度

成本

本地部署

便捷使用

gptpdf

https://github.com/CosmosShadow/gptpdf

偶有差错

语义正确格式错误

基本无误

16s/页

可行(基于视觉大模型,显存要求高)

可行

部署便捷

MinerU

https://github.com/opendatalab/MinerU

基本正确

较差

只能简单区分是否为标题,且识别准确性不高

正相关于硬件算力(i7-2700+3090上4.52s/页)

本地部署(硬件折旧+电力损耗)

可本地部署

不甚便捷

TextIn

https://www.textin.com/document/pdf_to_markdown

基本正确

基本正确

层级支持,偶有错误

极快,平均0.07s/页

详见官网

可定制

非常便捷

从效果上,几种方法都在可接受的范围内。

视觉大模型方案成本高昂且可靠性较差,尽管近来有较多类似功能的开源仓库,但效果较差,价格高,速度慢,因此不建议使用此类方案。

从部署成本来说,如果有较强的本地算力,用量大且成本有限,建议使用本地OCR识别方案;如果对精确度要求高,资金充足,则建议使用云端OCR的识别方案;如果对精确度和数据安全都有较高的要求,可以选择TextIn本地部署。

最后附上测试代码和结果,也可以帮助你便捷完成批量转换。 mdfy_test:https://github.com/RwandanMtGorilla/mdfy_test

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
[1308]pdf转markdown
gptpdf 是一个利用VLLM解析PDF为Markdown的工具,几乎完美支持数学公式、表格等。
周小董
2024/11/24
8720
[1308]pdf转markdown
6 大 RAG 知识库PDF文档处理神器对比,谁才是你的最佳选择?
今天,我们精挑细选 6 款最具代表性的 RAG 知识库文档处理工具,从技术架构、功能特性、适用场景、优劣势等多个维度对比,帮你找到最适合的解决方案!💡🔥
致Great
2025/03/02
1.7K0
6 大 RAG 知识库PDF文档处理神器对比,谁才是你的最佳选择?
MinerU、Doc2X、OmniParse、llm_aided_ocr 四款流行OCR工具测评(LLM & RAG数据准备)
删除\m,就会正常,而Doc2X通常很少出现这种情况,我可以预先告诉你,Doc2X是这4个中最好的,但是他也有一些缺陷,我会在后文说。
AI进修生
2024/12/02
4.8K0
MinerU、Doc2X、OmniParse、llm_aided_ocr 四款流行OCR工具测评(LLM & RAG数据准备)
破解PDF解析难题:RAG中高效解析复杂PDF的最佳选择
随着检索增强生成(RAG)技术的普及,从朴素 RAG 到高级 RAG,再到 GraphRAG 的快速演进,如微软的 GraphRAG 和 LightRAG 等框架不断涌现。这些框架提升了 RAG 的精度,但大多不支持 PDF 格式,而企业内部却存在大量 PDF 文档。因此,将这些资料有效整合进内部知识库成为技术挑战。
AgenticAI
2025/03/18
3990
破解PDF解析难题:RAG中高效解析复杂PDF的最佳选择
IntFinQ知识库体验:大模型加速器2.0,助力企业走向文档智能化
在数字化转型浪潮中,企业文档处理正面临「数据爆炸」与「认知过载」的双重挑战。合合信息Textin最新推出的「大模型加速器2.0」正在重新定义企业级文档智能化的边界。本文将带您深入体验这场文档认知革命的核心技术突破。
Damon小智
2025/04/02
1160
IntFinQ知识库体验:大模型加速器2.0,助力企业走向文档智能化
首次揭秘!腾讯多模态OCR大模型最新技术演进:没有最强OCR,只有无限进化!
在各行业加速智能化转型的进程中,OCR技术(即光学字符识别,一种将图像中文字转化为可编辑文本的AI技术,在文档处理、办公自动化、交通出行、教育、医疗、金融等领域应用广泛。)一直扮演着重要的角色。正所谓“金无足赤”,随着业务场景日益复杂与需求多样化,传统OCR的局限性也逐渐成为制约企业转型发展的瓶颈。
腾讯云开发者
2025/06/21
4200
首次揭秘!腾讯多模态OCR大模型最新技术演进:没有最强OCR,只有无限进化!
多模态产品在智能文档处理应用的展望------以TextIn模型为例
   第十四届视觉与学习青年学者研讨会(VALSE 2024)于5月5日-7日在山城重庆渝北区悦来国际会议中心举办。大会聚焦计算机视觉、模式识别、多媒体和机器学习等领域的国际前沿和热点方向。大会中,合合信息智能创新事业部研发总监常扬做了"文档解析与向量化技术加速多模态大模型训练与应用"专题汇报,主要讲解TextIn文档解析技术和高精度文本向量化模型的技术特征。下面为大家分享一下这次报告的主要内容。
洁洁
2024/05/14
4120
多模态产品在智能文档处理应用的展望------以TextIn模型为例
统一图文解析OCR大模型Nanonets-OCR-s开源,复杂表格、图像描述、水印一站式解决
今天要为大家介绍的就是这款最新开源的Nanonets-OCR-s,它是一款功能强大 OCR 模型,统一了文本处理与图像识别。它能够将文档转换为结构化的 Markdown,并具备智能内容识别和语义标记功能,非常适合 LLM 或者 RAG 文档处理。
AgenticAI
2025/06/25
5260
统一图文解析OCR大模型Nanonets-OCR-s开源,复杂表格、图像描述、水印一站式解决
文档解析之困 | 大模型时代,复杂文档解析如何更精准?
前不久,我们推出了腾讯云大模型知识引擎,最快只需5分钟,客户就能轻松搭建企业专属知识服务助手。作为一个知识引擎,首先就得看懂,且理解「海量知识」——特别是复杂多样的PDF、图片、表格等格式文件!
腾讯云AI
2024/10/18
1.7K0
文档解析之困 | 大模型时代,复杂文档解析如何更精准?
文档解析技术发展回顾与路径思考
随着全球数字化进程的加速,非结构化数据量呈现爆炸式增长,从纸质文档到电子文件的转变不仅意味着信息存储方式的革新,更标志着旧数据被赋予了新的生命力。文档智能技术的发展使得大量以传统形式保存的信息资源能够“活化”再利用,这些技术将图像、手写笔记等非结构化数据转化为计算机可处理和理解的结构化格式,从而极大地拓展了数据的应用场景。得益于深度学习算法的进步,文档解析技术在文档数字化、票据自动化处理、笔迹录入等多个领域取得了显著成就。例如,在金融行业,智能文档处理系统可以快速准确地识别并提取票据中的关键信息,大大提高了工作效率;在历史文献保护方面,先进的文档分析工具能够帮助学者们解读古老文本,为文化传承贡献力量。文档智能技术正以其高效便捷的特点,成为推动各行业数字化转型的重要力量。
合合技术团队
2024/12/25
2330
文档解析技术发展回顾与路径思考
合合信息“TextIn大模型加速器 2.0”版本来了:文档解析和图表解析能力全面升级
在日常工作中,我们常常遇到无法直接复制的文档内容或图片内容,这些内容通常需要进行识别和解析。一个典型的例子是,当我们需要将折线图转化为表格数据时,手动操作既繁琐又容易出错。近期,我发现合合信息 TextIn 推出了全新解决方案——大模型加速器 2.0,专门解决这一问题。通过大规模预训练的基座模型,TextIn采用生成式学习方法,从图表的布局、线条、颜色、标记等多个维度进行深度建模。这样,它能够准确提取图表中的关键数据点、坐标轴信息、图例说明等内容,并将其转化为大模型能够理解的Markdown格式,在处理“柱形图+折线图”等复合式图表时,图表解析模块不仅能够精准解析不同类型图表的数据,还能够将这些图表数据还原为完整的Excel表格,进一步展示了文档解析引擎强大的“理解力”。
猫头虎
2025/03/28
1592
文档解析测试PDF,欢迎挑战
最近在看文档处理方面的模型和工具,准备写个新系列,聚焦大模型文档处理,记录模型特性与功能,本地部署,实际测试。
Ai学习的老章
2025/06/23
920
文档解析测试PDF,欢迎挑战
2024年RAG:回顾与展望
根据RAG技术结构可以分成三类,代表了不同的技术复杂度,越复杂也代表实现难度越大。但是可能会收到更好的效果,适应更多的场景,这三类类型是:
致Great
2025/01/01
1.1K2
文档信息抽取技术:从非结构化文本到结构化信息的旅程
文档信息抽取技术是一种将非结构化文本转化为结构化信息的技术。这种技术可以从各类文档中自动提取出如实体、关系和其他重要信息,并将它们转化为方便计算机进一步处理和分析的格式。
合合技术团队
2023/09/22
1.8K0
文档信息抽取技术:从非结构化文本到结构化信息的旅程
加速文档解析与向量化技术:实现多模态大模型训练与应用
本文介绍了当前大型模型文档解析面临的问题,包括版面检测、阅读顺序还原、表格还原和公式识别等技术挑战。针对这些问题,介绍了TextIn文档解析技术和文字向量化技术的应用,以及TextIn平台的产品和服务。
默 语
2024/11/20
2750
加速文档解析与向量化技术:实现多模态大模型训练与应用
从OCR到Document Parsing,AI时代的非结构化数据处理发生了什么改变?
在这个时代的每一天,无论是个人处理账单,还是企业处理合同、保险单、发票、报告或成堆的简历,我们都深陷在海量的非结构化数据之中。这类数据不像整齐排列的数据库表格那样规整,它们形态各异、格式自由,信息“藏”在复杂的文本、表格和布局里。
合合技术团队
2025/06/09
2030
从OCR到Document Parsing,AI时代的非结构化数据处理发生了什么改变?
ChatOCR:文心一言/千帆API实现关键信息提取
现在的任务是从OCR文字识别的结果中提取我指定的关键信息。OCR的文字识别结果使用符号包围,包含所识别出来的文字,顺序在原始图片中从左至右、从上至下。我指定的关键信息使用[]符号包围。请注意OCR的文字识别结果可能存在长句子换行被切断、不合理的分词、对应错位等问题,你需要结合上下文语义进行综合判断,以抽取准确的关键信息。输出为json格式。
机器学习AI算法工程
2023/11/24
1.9K0
ChatOCR:文心一言/千帆API实现关键信息提取
解析稳定率达99.99%!合合信息“大模型加速器2.0”助力AI打破“幻觉”
随着大模型在社会应用中逐渐普及,人们在享受便利的同时,也面临着“AI 幻觉”产生的风险。训练数据是影响大模型“认知能力”的关键要素,近期,上海合合信息科技股份有限公司(简称“合合信息”)TextIn“大模型加速器 2.0”版本正式上线,基于领先的智能文档处理技术,对复杂文档的版式、布局和元素进行精准解析及结构化处理,从数据源头降低大模型“幻觉”风险,让大模型在与人类的沟通中“更靠谱”。
合合技术团队
2025/03/21
1420
解析稳定率达99.99%!合合信息“大模型加速器2.0”助力AI打破“幻觉”
基于腾讯云智能结构化OCR能力的最佳技术实践
在信息爆炸的时代,企业面临着海量数据的挑战。如何高效地获取、处理和利用这些数据,成为提升竞争力的关键。光学字符识别(OCR)技术作为数据采集的重要工具,已在多个行业得到广泛应用。腾讯云智能结构化OCR能力凭借其高效、准确、智能的特性,成为众多企业数字化转型的理想选择。本博客将深入探讨基于腾讯云智能结构化OCR能力的最佳技术实践,涵盖应用背景、解决的问题、接入指引、技术优势,以及实际应用后的效果与收益。通过详细的项目描述和丰富的代码示例,帮助读者全面理解和应用这一技术。
Undoom
2024/12/20
3220
达观高翔:智能文档处理IDP关键技术与实践
什么是智能文档处理?针对文本数据处理尤其是纯文本,大家通常会想到使用自然语言处理(Natural language processing,NLP)技术来解决语义理解及分析处理工作。关于自然语言处理技术的研究有很长历史,针对不同层面文本处理和分析有很多技术点,常见技术例如分词与词性标注、命名实体识别、句法结构分析、文本分类、文本摘要等功能。
用户10103085
2022/11/03
2.1K0
达观高翔:智能文档处理IDP关键技术与实践
推荐阅读
[1308]pdf转markdown
8720
6 大 RAG 知识库PDF文档处理神器对比,谁才是你的最佳选择?
1.7K0
MinerU、Doc2X、OmniParse、llm_aided_ocr 四款流行OCR工具测评(LLM & RAG数据准备)
4.8K0
破解PDF解析难题:RAG中高效解析复杂PDF的最佳选择
3990
IntFinQ知识库体验:大模型加速器2.0,助力企业走向文档智能化
1160
首次揭秘!腾讯多模态OCR大模型最新技术演进:没有最强OCR,只有无限进化!
4200
多模态产品在智能文档处理应用的展望------以TextIn模型为例
4120
统一图文解析OCR大模型Nanonets-OCR-s开源,复杂表格、图像描述、水印一站式解决
5260
文档解析之困 | 大模型时代,复杂文档解析如何更精准?
1.7K0
文档解析技术发展回顾与路径思考
2330
合合信息“TextIn大模型加速器 2.0”版本来了:文档解析和图表解析能力全面升级
1592
文档解析测试PDF,欢迎挑战
920
2024年RAG:回顾与展望
1.1K2
文档信息抽取技术:从非结构化文本到结构化信息的旅程
1.8K0
加速文档解析与向量化技术:实现多模态大模型训练与应用
2750
从OCR到Document Parsing,AI时代的非结构化数据处理发生了什么改变?
2030
ChatOCR:文心一言/千帆API实现关键信息提取
1.9K0
解析稳定率达99.99%!合合信息“大模型加速器2.0”助力AI打破“幻觉”
1420
基于腾讯云智能结构化OCR能力的最佳技术实践
3220
达观高翔:智能文档处理IDP关键技术与实践
2.1K0
相关推荐
[1308]pdf转markdown
更多 >
交个朋友
加入腾讯云官网粉丝站
蹲全网底价单品 享第一手活动信息
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档