使用python3的pdfminer库提取pdf文件的第一页

文章/答案/技术大牛

发布

1回答

Python 3 PDF文本提取

python、python-3.x

我最近从python2转到python3。我知道python3不支持PDFMiner模块。所以我想知道是否有替代PDFMiner的方法，或者更简单一些，是否有任何模块支持Python3，并且能够从pdf中提取文本和数字？

浏览 5提问于2015-09-14得票数 3

1回答

PDFMiner不能检测所有页面

ocr、data-extraction、pdfminer、hocr

我试图从pdf中提取文本，但我遇到了一个错误，因为我的脚本有时会检测pdf的每一页，有时只检测pdf的第一页。我甚至在stackoverflow上的上一个post中包含了这一行。print(len(list(extract_pages(pdf_file)))) 任何时候，我的脚本只提取第一页，脚本只检测到1页。我甚至尝试过另一个库(PyPDF2

浏览 19提问于2020-10-17得票数 0

2回答

如何根据位置从PDF中提取文本？

linux、pdf、pdfminer

我有多个PDF，我想从他们的第一页从某个区域提取文本。因此，假设我有PDF中文本的边界框的坐标，那么如何使用命令行提取文本。有人能告诉我如何用PDFMiner来做这件事吗？或者你能提出其他解决方案吗？ PS:我在Linux终端上。

浏览 1提问于2014-03-14得票数 1

回答已采纳

6回答

使用python中的PDFMiner从PDF文件中提取文本？

python、python-3.x、python-2.7、text-extraction、pdfminer

我正在寻找有关如何使用PDFMiner和Python从PDF文件中提取文本的文档或示例。看起来，PDFMiner更新了它们的API，我发现的所有相关示例都包含过时的代码(类和方法已经更改)。我发现，使从PDF文件中提取文本的任务变得更容易的库使用了旧的PDFMine

浏览 11提问于2014-10-21得票数 112

回答已采纳

2回答

提取LTFigure对象后面的文本

python、pdf、pdfminer

我正在使用python pdfminer库(参见docs)从pdf文件中提取文本。然而，pdfminer似乎无法提取某些文件中的所有文本，而是提取LTFigure对象。假设从这个对象的位置，它“覆盖”了一些文本，因此这个文本没有被提取出来。pdf文件和包含从pdf提取信息的

浏览 149提问于2021-01-28得票数 0

回答已采纳

1回答

python、pdf、pdfminer

我想从pdffile中获取第一页数据。我已经使用了pdfminer并在输出中获得了pdffile的所有数据，但我只想获取pdffile的第一页数据。我该怎么办？我的代码如下所示。from pdfminer.high_level import extract_pagesimport os path

浏览 83提问于2021-06-24得票数 0

回答已采纳

1回答

从Python的PDF格式中提取文本及其字体细节(样式、大小、颜色、意大利语等)

python、pdf、fonts、font-size、text-extraction

我希望从Python的PDF格式中提取其字体细节(样式、大小、颜色、意大利等)的文本。我需要为翻译提取文本及其元数据，purpose.Can --任何人都建议使用相同的库。

浏览 0提问于2014-02-21得票数 7

2回答

我想使用pdfminer.six，这是一个工具，可以与Python3一起用于从PDF文档中提取信息。问题是根本没有好的文档，也没有关于如何使用该工具的源代码示例。我已经尝试了StackOverflow中的一些代码，但它不起作用。下面是我的代码。from pdfminer.converter import TextConverter from pdfminer.layout impo

浏览 7提问于2019-06-07得票数 10

回答已采纳

3回答

用于读取PDF文件的Python

python、pdf

我发现很多帖子都提出了阅读PDF的解决方案。我想一个字一个字地阅读PDF文件，并对它做一些处理。人们推荐pdfMiner，它可以将整个PDF文件转换成文本文件。但我想要的是一个字一个字地读PDF。有没有人能推荐一个这样的图书馆呢？

浏览 2提问于2011-05-10得票数 11

回答已采纳

1回答

使用pdfminer从PDF文件中提取每个单词的坐标

python、pdf、coordinates、extract、pdfminer

我试图提取每个字的坐标从输入PDF文件使用pdfminer。我试过下面的代码。from pdfminer.layout import LAParams, LTTextBox, LTText, LTChar, LTAnnofrom pdfminer.pdfinterp import PDFPageInterpreter, PDFResourceManager fr

浏览 13提问于2022-07-19得票数 1

2回答

使用PDFminer3将多个PDF转换为文本文件

python-3.x、pdfminer

希望这是一个非常简单的，但我是一个全新的使用Python3的小项目，并希望一些指导。我有一个超过1000 pdf文件的文件夹，我想提取一些数据。我可以成功地将PDF转换为文本文件并将其保存在脚本目录中，但是我无法弄清楚如何一次为所有PDF运行该文件，并在新文件夹中为每个PDF创建一个输出文件。

浏览 0提问于2019-11-28得票数 0

5回答

使用pdfminer.six从pdf文件中提取文本时出错

python、pdf、windows-10、pdfminer

我正在尝试使用pdfminer.six库(如)从pdf中提取文本，我已经在我的虚拟环境中安装了它。这是我的代码：但是，但我在我的系统python中看到了这个已安装的pdf2txt.

浏览 12提问于2020-11-09得票数 2

2回答

PDF文本提取并将其存储为键值对。

python、regex、text-mining、pdftotext、pdf-extraction

我想从PDF中提取文本。我从文本提取中得到的输出没有那么有组织。我想要提取的参数，如MPC控制#，序列编号，型号等，并可以存储在字典中的键值对。我正在用下面的代码进行尝试，但没有得到所需的输出。import iofrom pdfminer3.pdfpage

浏览 9提问于2021-06-16得票数 0

回答已采纳

1回答

pdfminer3不是从彩色pdf页面中提取文本，如何将pdf页面转换成灰度？

python、pdf、text-extraction、grayscale、pdfminer

我正在使用pdfminer3库从pdf中提取文本。但是它在彩色页面中的效果并不好。我尝试使用以下代码从pdf中提取文本：from pdfminer3.pdfpage import PDFPage这是一个简单的字母数字数据。我不知道为什么它会显示cid:，它甚至不在我的</em

浏览 2提问于2020-12-17得票数 0

2回答

如何使用python从PDF文件中只提取特定的文本

python、dataframe、tesseract、python-tesseract

如何使用python从PDF文件中提取一些特定的文本，并将输出数据存储到Excel的特定列中。这里是样例输入PDF文件(File.pdf) 我们需要从整个文件中提取发票号、到期日和总到期的值。到目前为止我使用的脚本： from io import St

浏览 2提问于2020-09-30得票数 0

1回答

对于pdfminer，无法将python 2中的file()替换为python 3中的open()

python、python-3.x、python-2.x、pdfminer

我正在尝试获取路径中所有pdf的xml文件，为此，我想使用Python3上的https://github.com/euske/pdfminer/blob/master/tools/pdf2txt.py中的pdfminer代码。我还安装了pdfminer.six和所有相关的软件包。但是，使用</e

浏览 22提问于2019-08-30得票数 0

4回答

从PDF中提取文本

python、pdf

我有一堆PDF文件，我需要转换为TXT。不幸的是，当我使用许多可用的实用程序中的一个来做这件事时，它丢失了所有的格式，并且PDF中的所有表格数据变得混乱。可以通过指定位置等方式使用Python从PDF中提取文本吗？谢谢。

浏览 0提问于2010-06-30得票数 7

回答已采纳

3回答

使用python3从pdf中提取文本

python-3.x、pdf、pdfminer

我正在尝试使用slate模块从pdf文件中提取文本，如下所示import slate with open('/var/tmp/PhysRevB.93.014203.pdf'

浏览 4提问于2016-11-16得票数 1

2回答

从pdfs和文档中提取文本和元数据

javascript、python

我正在做一个抄袭检查作为一个附带的项目。我想知道如何从文档such as bold text or big titles中提取文本和相关元数据的方法。我将使用python或javascript，并在每种语言上使用框架。那么，我如何从文件中提取所需的数据呢？

浏览 11提问于2020-10-22得票数 0

回答已采纳

1回答

使用PDFMiner从PDF中提取文本时丢失信息

python、python-3.x、pdf、poppler、pdfminer

我在Windows 7上使用Python3.4，希望能使用PDFMiner从PDF文件中提取文本。然而，在我测试的时候，丢失信息是很常见的。对于一些文件，这可能只是几句话的问题。但是，我遇到了一些情况，根据文件格式，无法提取文本的半。这是我的完整代码：from pdfminer.pdfinterp impo

浏览 4提问于2016-06-16得票数 0

点击加载更多

Python 3 PDF文本提取

PDFMiner不能检测所有页面

如何根据位置从PDF中提取文本？

使用python中的PDFMiner从PDF文件中提取文本？

提取LTFigure对象后面的文本