用Python读取PDF文件中的内容

文章/答案/技术大牛

发布

1回答

、、

我正在尝试阅读下面的PDF，但我做不到。要么得到不可读的字符，要么得到UnicodeDecodeError。一些解决方案。import PyPDF2read_pdf = PyPDF2.PdfFileReader(pdf_file) number_of_pages = read_pdf.getNumPag

浏览 15提问于2020-05-31得票数 0

0回答

使用python 3.6读取pdf文件

、、

有没有办法用python3.6打开和读取pdf文件？我试着用几个库和工具如PyPDF2和pdfrw来读取pdf文件，但是它们都不能提取pdf文档的文本内容。任何形式的帮助都将不胜感激。

浏览 5提问于2017-12-13得票数 5

回答已采纳

2回答

在python中读取pdf文件时，编解码器出现unicode错误

、、

我正在尝试读取包含以下内容的pdf文件：如果我用open读取它，它可以工作，但是如果我尝试用codecs.open(文件名，encoding="utf8"，mode="UnicodeDecodeError: 'utf8' codec can't decode byte 0xe2 in position 10: invalid continua

浏览 0提问于2013-06-18得票数 2

回答已采纳

1回答

从zip文件中读取文件并将其写入另一个文件时遇到的问题

我编写了一个python脚本，它执行以下操作： 1)它从特定路径读取压缩文件中的日志文件(.jrn)，并将其写入另一路径上的文本文件。2)文本文件由另一个python脚本(比如x.py)读取，以执行一些特定的操作。我面临的问题是，写入的文本文件，尽管其内容看起来与日志文件(从压缩文件<

浏览 1提问于2012-03-02得票数 0

2回答

操作PDF文件

、、

我想读取一个PDF文件作为文本( PostScript )，添加新的对象在文件结构和保存的最终输出为一个新的PDF，但如果我只是复制PDF PostScript内容并粘贴到一个新创建的PDF文件(如encoding='ansi')，该文件不工作。我确信这可能是编码问题，但我不确定我应该做什么才能有一个有效的<

浏览 4提问于2019-03-20得票数 0

1回答

如何使用Python3和PyPDF2将unicode编码的PDF文件转换为文本

、、、

我正在尝试使用Python3和PyPDF2库将PDF转换为文本文件。但PDF主要是用韩语编写的，所以在处理PDF文本之前，它似乎是用'utf-8‘编码的。但是，无论是使用"open“功能读取PDF文件，还是使用"codecs”功能读取PDF文件，似乎都无法正确提取‘utf-8’编码的</em

浏览 0提问于2018-12-17得票数 1

3回答

从pdf文件中获取数据

、

我有一张pdf文件中的表格。有x，y，z列。我只想要x列。有可能使用python吗？如果是，怎么做？然后我想要画x和y。我该怎么做(使用表中的数据)

浏览 23提问于2022-04-14得票数 -1

1回答

使用Python将PDF文件作为文本读取

、

错误文件"C:\Python27\lib\site-packages\slate__init__.py"，第48行，从板子导入PDF文件"C:\Python27\lib\site-packages\slate\slate.py"，第3行

浏览 2提问于2017-03-23得票数 1

回答已采纳

1回答

(所以“纯Python")：将PDF转换成图像

、、、、

在中，我需要能够将上传的PDF转换成图像(也许有一天会有很多平铺图像)来存储和提供服务。是否有一个库可以读取同样是100% python的PDF文件(这样它就可以用我的应用程序上传)？从我收集到的资料来看..。 PIL不读取 PDF文件，只写入它们。GhostScript是标准的FOSS PDF阅读器，但我

浏览 2提问于2011-11-28得票数 3

回答已采纳

1回答

如何读取一些pdf文件中除表格以外的所有内容？

、

我想使用python读取pdf文件，但在阅读时，我不想将表格包含在pdf文件中。我只想要除了那些表格之外的所有其他内容。我尝试过像PyPDF2和Tabula这样的库，但我只是找到了提取表格或读取包括表格在内的内容的方法。我也不想创建一个新文件并在其中添加页面。准确地说，除了表的内容之外，所有

浏览 26提问于2019-09-02得票数 0

1回答

需要比较word模板和实际PDF的内容

、

我有两个文件(word & pdf)，需要比较它们。word文档将是模板，它定义了如何生成pdf。下面是样品。Thanks, John, Kennedy USD1245,CA Dear John,有人能帮助比较逻辑来验证静态和动态内容都是按预期生成的吗？我们使用TestComplete和JavaScript来实现自动化。

浏览 3提问于2022-02-10得票数 0

1回答

如何读取txt文件在不同目录中的内容，并根据

、、、

我刚开始使用Python 3，遇到了以下问题：/Journal 1/ file1.pdf</e

浏览 2提问于2015-07-20得票数 2

回答已采纳

1回答

如何使用python从服务器上的不同位置导入文件？

、

我正在尝试从共享驱动器上的不同文件夹(在不同目录中)导入多个文件。但是当我使用更改目录功能时，我只能选择一条路径。merger.append(fileobj = input1)out

浏览 6提问于2021-03-02得票数 0

3回答

用于读取PDF文件的Python

、

我发现很多帖子都提出了阅读PDF的解决方案。我想一个字一个字地阅读PDF文件，并对它做一些处理。人们推荐pdfMiner，它可以将整个PDF文件转换成文本文件。但我想要的是一个字一个字地读PDF。有没有人能推荐一个这样的图书馆呢？

浏览 2提问于2011-05-10得票数 11

回答已采纳

1回答

我想将结果输出到doc文件中。我已经得到了pdf格式的结果 pdf = pisa.pisaDocument(StringIO.StringIO(html.encode("UTF-8")), dest=result, link_callback请提供任何链接，给出详细的python docx示例。但同样的文件也会在天平办公室打开。我不知道怎么做。我收到错误消息“文件无法打开，因为内容</em

浏览 1提问于2014-05-24得票数 2

2回答

如何在Python* tabula-py的表格中有换行符时读取pdf中的表格？*

、、

我尝试使用Python包 -py来读取pdf格式的表格单元格，似乎pdf表格单元格中的换行符会将原始单元格中的内容分成多个单元格。我试图搜索各种python包来解决这个问题。似乎tabula-py是将pdf表格转换为pandas数据最稳定的软件包。但是，如果这个问题不能解决，我不得不求助于，它将为我生成理想的excel输出。from tabul

浏览 2提问于2019-05-18得票数 4

1回答

在Python* 3中提取PDF元数据*

、

从PDF文件中获取元数据的最佳模块或简单脚本是什么？对于python2.7，一切看起来都是这样，否则模块就不能工作了。我需要它才能让python 3.4.2工作。https://pypi.python.org/pypi/pdfminer/ = Python 2.7使用：print(input1.getDocumentInfo())，我不断地收到错误

浏览 0提问于2015-05-31得票数 1

回答已采纳

1回答

我如何阅读python的pdf？

、、、

我如何在python中读取pdf ?我知道一种将它转换为文本的方法，但是我想直接从pdf中读取内容。有人能解释一下python中哪个模块最适合pdf提取吗？

浏览 2提问于2017-08-21得票数 45

1回答

在python中将函数应用于目录的每个元素的内容时会出现问题？

、、、、

我试图从一个目录中获取几个.pdf文件的内容，以便将它们转换为带有tika库的文本，但是我相信我没有正确读取.pdf文件对象。这就是我到目前为止所尝试的：for filename in sorted(glob.glob(os.path.join(input_directory, '*.pdf'))): text = pa

浏览 7提问于2016-10-08得票数 1

2回答

在Python中将doc / docx文件转换为pdf

、

有没有好的库可以把doc文件转换成pdf文件？有一些付费选项，如cloudconvert，convertApi等，但我正在寻找一个免费的选项。我的python应用程序托管在EC2机器上。我还查看了python-docx库，它可以让我读取doc文件的内容，但我认为将内容写入pdf文件会破坏样式。

浏览 48提问于2019-03-05得票数 1

点击加载更多