如果所有数据都是干净、纯文本的,NLP和数据科学就会变得非常简单。但在实践中,大量数据被隐藏在PDF、Word文档、扫描件及其他难以处理的格式中。本演讲将介绍一种新的模块化方法,利用最先进的模型和强大的Python生态系统,构建稳健的文档理解系统。内容涵盖如何从PDF转换到结构化数据,甚至为特定用例构建完全自定义的信息提取流水线。
在实践示例中,使用了某开源NLP库、新的文档解析库以及布局分析模型。此外,还会涉及基于图像的文本光学字符识别(OCR)、如何将表格数据转换为Pandas DataFrame,以及为文本分类、实体识别等信息提取任务创建训练和评估数据的策略(以PDF和其他文档作为输入)。
许多企业希望电子副本与纸质文档一一对应,这导致大量数据被锁定在PDF中。
某开源NLP库(用于工业级自然语言处理)可以与文档解析库结合,处理文档并创建类似该库原生文档对象的统一结构化格式。
布局分析扩展的功能包括:
示例应用:查找包含某个实体(如组织名)的布局跨度,获取其边界框、最近的标题和章节标题。
利用表格结构理解模型,可将文档中的表格转换为pandas DataFrame,并自定义表格在文本中的表示形式(例如:"表格包含列:名称,金额")。
使用标注工具插件,可通过命令行运行标注流程:
随后可训练NLP模型:
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。