首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

python玩转PDF文档

15

python作为一种具有相对简单语法的高级解释语言,即使对于那些没有编程经验的人来说,Python也是简单易操作的。强大的Python库让你事半功倍。

在处理文本信息时,通常我们需要从word、PDF文档中提取出信息,而PDF是最重要和最广泛使用的用来呈现和交换文件的数字媒体之一,。PDF包含有用的信息,链接和按钮,表单域,音频,视频和业务逻辑。python库很好地集成并提供处理非结构化数据源。运用python可以轻松从PDF中提取有用信息后,您可以轻松地将该数据用于任何机器学习或自然语言处理模型。

常见的Python库

以下是可用于处理PDF文件的一些Python库

PDFMiner :一个从PDF文档中提取信息的工具。与其他PDF相关工具不同,它完全专注于获取和分析文本数据。

PyPDF2:一个纯python PDF库,能够分割,合并,裁剪和转换PDF文件的页面。它还可以向PDF文件添加自定义数据,查看选项和密码。它可以从PDF中检索文本和元数据,以及将整个文件合并在一起。

Tabula-py:一个 tabula-java的简单Python包装器,它可以读取PDF表。您可以从PDF读取表格并转换为pandas的DataFrame。tabula-py还允许您将PDF文件转换为CSV / TSV / JSON文件。

Slate:PDFMiner的包装器实现

PDFQuery:pdfminer,lxml和pyquery的轻量级包装器。它旨在使用尽可能少的代码可靠地从PDF集合中提取数据。

xpdf:xpdf的 Python包装器(目前只是“pdftotext”实用程序)

从pdf中提取文本

使用PyPDF2从pdf中提取简单文本,示例代码如下:

从pdf中读取表格数据

使用Pdf中的Table数据,我们可以使用Tabula-py,示例代码如下:

如果您的Pdf文件包含多个表,可以进行如下设置:

还可以从任何特定PDF页面的特定部分提取信息

设置读取输出为JSON格式

将Pdf导出到Excel

使用以下代码将PDF数据转换为Excel或CSV

更多参考资料

python提取pdf信息:

https://www.geeksforgeeks.org/working-with-pdf-files-in-python/

原文:

https://towardsdatascience.com/python-for-pdf-ef0fac2808b0

PyPDF2库文档:

https://automatetheboringstuff.com/chapter13/

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190127A05QK300?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券