PDF解析:使用pdfminer和pandas

、、、

我正在尝试将pdf文件解析为csv格式。在pdf中，有一个没有框架的表格，因此建议的方法不起作用。我的想法是使用pdfminer来分析pdf的布局，定位所有文本行，并匹配每个文本行的bbox位置以重新构建表格。到目前为止，我已经通过比较每个textline对象的x0坐标，成功地将文本行排序为" left“和" right”列，并将根据它们的y0坐标匹配左侧和右侧行。当我试图将每一行的内容放入一个pandas Dat

浏览 0提问于2017-08-15得票数 2

2回答

如何使用python从pdf中的不平衡表中提取数据？

、、

我需要使用Python从PDF表格中提取数据(如下所示)。首先，我希望在页面上显示所有左侧数据，然后再显示右侧数据。我尝试过使用text.split('\n')和re.split(r'\s{3,}')，但都不起作用。 import pdfplumber with pdfplumber.open(pdf) as pd

浏览 13提问于2021-06-17得票数 0

2回答

Python & PDF解析:有任何现代的、强大的、维护良好的开源库吗？

、、、、

我正在寻找维护良好和文档齐全的Python强大PDF解析库(主要用于从具有不同/不可预测结构的各种类型的PDF中提取和解析数据，包括借助可靠和强大的OCR)。/pdfminer/pdfminer.six (最后一次提交是3天前--似乎是维护最活跃的项目) 在我看来，PDFMiner API使用起来有点过于复杂了-- 这里有一个很好的例子。用于PDF的现代表解析器与Cam

浏览 0提问于2019-11-14得票数 4

回答已采纳

1回答

如何在使用pdf* miner解析pdf时忽略字符集错误*

、、、、

大家好，我在使用pdf miner解析pdf文件时遇到了编码错误。from pdfminer.pdfdocument import PDFDocumentfrom pdfminer.pdfpage/pathto/pdffile.pdf") parser =PDFParser(f

浏览 35提问于2021-06-19得票数 0

1回答

解压缩嵌入的PDF* - PDFInterpreterError:未知运算符：'\x00‘*

、、、

使用Scrapy，我想下载一个pdf到读取二进制文件到内存中，并提取内容。编辑:我正在使用pdfminer和下面的函数，这个函数之前已经工作过了： File "E:\Miniconda2\envs\contact2E\lib\site-packages\pdfminer\pdfinterp.py&quo

浏览 3提问于2017-11-23得票数 0

1回答

使用pdfminer.six从每个PDF页面提取文本

、、、

pdfminer的文档充其量也是很差的。我最初使用的是pdfminer，并将其用于一些PDF文件，然后我遇到了一些错误，并意识到我应该使用pdfminer.six。我想从PDF的每一页提取文本，这样我就可以在哪里找到特定的单词和类似的标签。使用文档：from pdfminer.pdfdocument import P

浏览 4提问于2018-09-26得票数 2

1回答

转换PDF文件为XML文件，最好使用ITextSharp

、、、

我有一个PDF文档，我需要从中读取数据。我发现，当我将上述PDF转换为XML文档时，可以从其中读取方便的标记，因此我需要一种方法来在代码中将我的文件转换为xml，这样我就可以使用映射文件将数据内容读取到数据库中。

浏览 2提问于2012-06-22得票数 3

5回答

如何使用Python中的PDFMiner获取PDF文件的总页数？

、

在PyPDF 2中，pdfreader.getNumPages()给出了一个PDF文件的总页数。如何使用获得这个

浏览 6提问于2017-08-23得票数 5

回答已采纳

1回答

Pdfminer使用layout和bbox解析文档

、

我正在使用pdfminer来解析某些类型的pdf(仅用于文本)，如学位证书等。因此，对于特定的机构，这些保持不变，并且可能在不同的机构中有所不同。因为我是新手，如果我能得到任何关于如何在布局中解析不同对象(如注册号)的想法，我将不胜感激。解析或操纵边界框或任何曲线的不同方式有哪些？from pdfminer.pdfpage import PDFPage from pdfminer.pdfpage import PDFTextExtractionNotA

浏览 46提问于2020-02-07得票数 1

2回答

如何在Python3中使用PDFminer.six？

、、

我想使用pdfminer.six，这是一个工具，可以与Python3一起用于从PDF文档中提取信息。问题是根本没有好的文档，也没有关于如何使用该工具的源代码示例。from pdfminer.converter import TextConverterfrom pdfminer.pdfpageimport PDFPage def convert_<

浏览 7提问于2019-06-07得票数 10

回答已采纳

1回答

如何使用python代码将pdf转换为xml /json

、

有谁能帮助我如何使用python代码将pdf文件转换成xml文件？我的pdf包含：徽标的标签等。我尝试使用PDFMiner，但我的pdf数据没有转换成.xml/json文件格式。除了PDFMiner之外，还有其他库吗？PyPDF2、Tabula-py、PDFQuery、comelot、PyMuPDF、pdf to dox、pandas- -这些其他

浏览 12提问于2022-06-06得票数 -1

1回答

将cp1251 pdf解析为python中的文本

、、、

有什么方法可以用俄文(cp1251)从pdf文件中提取文本吗？对于解析pdf文件，我使用pdfminer包。我试图在pdfminer.converter.TextConverter类的参数中指定编码，但没有帮助。

浏览 7提问于2015-08-26得票数 1

回答已采纳

3回答

解析PDF时忽略表

、、、、

我想分析pdf和删除所有的表，图像。我使用了PyPDF2和pdfminer来解析pdf，但它也会解析表格的内容和其他内容。我尝试将pdf转换为xml(使用pdfminer)以获得一些结构，这样我就可以忽略表。但是我没有得到有用的结构。我得到了不同id的元素，像这样 <textbox id="1" bbox="56.760,740.908,82.

浏览 7提问于2019-12-16得票数 1

1回答

文本的PDFMiner条件提取

、、

因此，我刚刚玩了PDFMiner，现在可以从PDF中提取文本，并将其扔到html或文本文件中。pdf2txt.py -o outputfile.txt -t txt inputfile.pdfwith open('output.txt', 'r') as searchfile: if 'HELLO' in line: print(line)

浏览 2提问于2016-08-07得票数 0

0回答

如何在路径中运行PDF文件，格式化和清理每个文件，并从各个文件中输出带有特定文本的regex？

、、、

我有一个脚本，采取PDF和格式它为HTML，清理HTML标签，并吐出一个干净的文本。然后运行一些正则表达式从每个PDF中提取数据。我的代码看起来像这样：from pdfminer.converterimport HTMLConverterfrom p

浏览 3提问于2016-07-11得票数 0

1回答

python KeyError：'DescendantFonts‘

、

我试图使用PDFMiner解析PDF文件，这是一种常见的代码格式，如下所示：from pdfminer.layout import LAParams

浏览 2提问于2017-10-16得票数 0

回答已采纳

6回答

使用python中的PDFMiner从PDF文件中提取文本？

、、、、

我正在寻找有关如何使用PDFMiner和Python从PDF文件中提取文本的文档或示例。实际上，我只是看一下源代码，看看是否能找到答案。

浏览 11提问于2014-10-21得票数 112

回答已采纳

1回答

Tabula-py找不到pdf文件

、、、、

我想用和解析一个PDF文件从pdfminer.pdfparser导入PDFParser从pdfminer.pdfdocument导入PDFDocument df.refenseigne.replace(to_repl

浏览 0提问于2018-08-02得票数 2

5回答

使用pdfminer.six从pdf文件中提取文本时出错

、、、

我正在尝试使用pdfminer.six库(如)从pdf中提取文本，我已经在我的虚拟环境中安装了它。这是我的代码：但是，当我使用python pdfreader.py执行代码时，会得到以下错误： File "

浏览 12提问于2020-11-09得票数 2

1回答

如何使用Adobe字符解析PDF

、、、

我一直试图使用几种工具来解析PDF文档。例如用于Python的pdfminer，用于Node.js的pdfminer，但是它们都不能解析空间Adobe字符，我得到以下序列。(cid:411)(cid:579)(cid:556)(cid:851)(cid:411)(cid:579) 是否有一个工具可以解析这些字符？

浏览 4提问于2020-07-24得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何使用python从pdf中的不平衡表中提取数据？

Python & PDF解析:有任何现代的、强大的、维护良好的开源库吗？

如何在使用pdf* miner解析pdf时忽略字符集错误*

解压缩嵌入的PDF* - PDFInterpreterError:未知运算符：'\x00‘*

使用pdfminer.six从每个PDF页面提取文本

转换PDF文件为XML文件，最好使用ITextSharp

如何使用Python中的PDFMiner获取PDF文件的总页数？

Pdfminer使用layout和bbox解析文档

如何在Python3中使用PDFminer.six？

如何使用python代码将pdf转换为xml /json

将cp1251 pdf解析为python中的文本

解析PDF时忽略表

文本的PDFMiner条件提取

如何在路径中运行PDF文件，格式化和清理每个文件，并从各个文件中输出带有特定文本的regex？

python KeyError：'DescendantFonts‘

使用python中的PDFMiner从PDF文件中提取文本？

Tabula-py找不到pdf文件

使用pdfminer.six从pdf文件中提取文本时出错

如何使用Adobe字符解析PDF

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐