在Python中从PDF中提取单词列表

在Python中，可以使用第三方库PyPDF2来从PDF中提取单词列表。以下是一个完善且全面的答案：

PDF（Portable Document Format）是一种广泛应用于电子文档交换的文件格式，它可以保留文档的原始格式，包括字体、图片、图形和布局。在Python中，可以使用PyPDF2库来处理PDF文件。

PyPDF2是一个功能强大的Python库，可以用于处理PDF文件。它支持从PDF文件中提取文本、图片以及其他元数据。要从PDF中提取单词列表，可以使用PyPDF2来读取PDF文件的内容，并使用正则表达式或其他文本处理技术提取其中的单词。

以下是从PDF中提取单词列表的Python代码示例：

import PyPDF2
import re

def extract_words_from_pdf(file_path):
    words = []
    
    with open(file_path, 'rb') as file:
        pdf = PyPDF2.PdfFileReader(file)
        
        for page_num in range(pdf.numPages):
            page = pdf.getPage(page_num)
            text = page.extractText()
            
            # 使用正则表达式提取单词
            words += re.findall(r'\b\w+\b', text)
    
    return words

# 调用函数并打印结果
pdf_file_path = 'example.pdf'
word_list = extract_words_from_pdf(pdf_file_path)
print(word_list)

在上述代码中，首先导入了PyPDF2库和re模块。然后定义了一个名为extract_words_from_pdf的函数，它接受一个PDF文件的路径作为输入，并返回提取的单词列表。

在函数内部，使用open函数打开PDF文件，并创建一个PdfFileReader对象来读取文件内容。接下来，使用一个循环遍历每一页的内容。通过调用getPage方法获取每一页的Page对象，并使用extractText方法提取文本内容。

使用正则表达式r'\b\w+\b'匹配单词的模式，其中\b表示单词的边界，\w+表示一个或多个字母、数字或下划线字符。

最后，将提取的单词添加到words列表中。完成循环后，返回提取的单词列表。

可以将上述代码保存为一个Python脚本，并将待提取单词的PDF文件路径传递给extract_words_from_pdf函数。运行脚本后，将打印提取的单词列表。

腾讯云提供了一系列与文档处理相关的产品，如腾讯云文档转换（https://cloud.tencent.com/product/tcic），可以将PDF文件转换为可编辑的文档格式，方便后续对文本内容进行进一步处理。

以上是关于在Python中从PDF中提取单词列表的完善且全面的答案。希望能对您有所帮助！

在Python中从PDF中提取单词列表

、、、

我正在尝试以列表的形式提取PDF中的单词。我可以从PDF中提取文本，但不能将其放入列表中 import PyPDF2PDFfilename = '1200.pdf' pdfFileObj = open

浏览 14提问于2019-06-26得票数 0

2回答

从pdfs和文档中提取文本和元数据

、

我想知道如何从文档such as bold text or big titles中提取文本和相关元数据的方法。那么，我如何从文件中提取所需的数据呢？

浏览 11提问于2020-10-22得票数 0

回答已采纳

4回答

PDF -将单个单词拆分为单独的行- Python 3

、、、

我正在尝试将PDF中的单词提取到单独的行中，但只能对文本文件执行此操作，如下所示。此外，规则是我不能将PDF文件转换为TXT，然后执行此操作。必须对PDF文件执行此操作。我也需要对可搜索的PDF文件做同样的事情。任何帮助都将不胜感激。

浏览 66提问于2019-12-06得票数 0

回答已采纳

1回答

使用python显示docx文件的内容

、

我想在docx中显示数据。但是我下面的代码是提取文本和打印it.Can，有人建议我怎么做呢？encode('ascii', 'ignore').decode('ascii') 我需要显示数据，因为它是在docx在这里，我的表中的文本正在显示，但没有显示表。这里能做些什么？

浏览 2提问于2019-09-23得票数 1

3回答

Python:当从pdf中提取文本时，如何解决合并的单词？

、、、、

我正在努力从一组pdf文件中提取单词。这些文件是我从网上下载的学术论文。import PyPDF2 as pdf#I)

浏览 17提问于2022-03-16得票数 0

回答已采纳

1回答

python pypdf来读取pdf并获得突出显示的单词

、、

如何使用python pypdf来读取pdf并获得高亮显示的单词？我在pdf中突出显示了未登录的单词，我想将它们提取出来供以后参考。

浏览 2提问于2011-05-16得票数 0

回答已采纳

1回答

使用pdftotext后:从txt中查找字符串页面

、

我目前正在用python编码，并设法使用pdftotext从pdf中提取文本。但是，在找到单词的位置后，我希望能够参考最初的pdf。详细来说，我感兴趣的是页面，甚至

浏览 0提问于2016-07-21得票数 1

1回答

将PDF文档中的文本提取为单独的新文件名文档

、、、

我有大量的PDF文件(>2k文件)，它们看起来类似于这个(PDF样本图像)提取将类似于以下内容：samplepdf_B.pdf -缩进B中的文本(前

浏览 0提问于2022-05-09得票数 1

回答已采纳

2回答

提取LTFigure对象后面的文本

、、

我正在使用python pdfminer库(参见docs)从pdf文件中提取文本。然而，pdfminer似乎无法提取某些文件中的所有文本，而是提取LTFigure对象。假设从这个对象的位置，它“覆盖”了一些文本，因此这个文本没有被提取出来。pdf文件和包含从pdf提取信息的代码的简短jupyter笔记本都在我专门创建的Github存储库中，目的是提出这个问题：

浏览 149提问于2021-01-28得票数 0

回答已采纳

1回答

将pdfminer bbox坐标转换为iOS屏幕

、、

我在swift中做了一个iPad应用程序项目，我需要提取pdf word bbox坐标并将其转换为iPad屏幕坐标。这样做的目的是我能够检测到一个单词何时被触摸。我使用webview来显示pdf，并且使用python中的pdfminer库来提取单词bboxes (我提取字符bboxes，我可以通过分隔单词之间的空格来获取单词)。

浏览 40提问于2016-09-23得票数 0

回答已采纳

3回答

用于读取PDF文件的Python

、

我发现很多帖子都提出了阅读PDF的解决方案。我想一个字一个字地阅读PDF文件，并对它做一些处理。人们推荐pdfMiner，它可以将整个PDF文件转换成文本文件。但我想要的是一个字一个字地读PDF。

浏览 2提问于2011-05-10得票数 11

回答已采纳

3回答

从pdf文件中获取数据

、

我有一张pdf文件中的表格。有x，y，z列。我只想要x列。有可能使用python吗？如果是，怎么做？然后我想要画x和y。我该怎么做(使用表中的数据)

浏览 23提问于2022-04-14得票数 -1

1回答

如何将索引与nltk.corpus中的单词结合使用？

、

如果我想从words.words()获得第1252个单词，我会怎么做？我当然可以做这样的事，但它太丑了，我几乎看不见它。

浏览 5提问于2016-08-18得票数 0

回答已采纳

2回答

如何在android中解析PDF文件？

、、、

此应用程序允许用户突出显示PDF文件中的单词。然后必须提取这些单词，那么我如何解析PDF文件才能在没有任何库的情况下从文件中获取提取的单词？有人能帮我吗？

浏览 5提问于2014-03-09得票数 0

回答已采纳

1回答

使用带有重复结尾词的regex提取字符串的区段

、

我正在尝试使用python中的re模块提取一些原始字符串。要提取的部分的末尾由一个重复单词(重复多次)标识，当前的工作总是捕获重复单词的最后匹配。我如何才能改变这种行为？从pdf中提取了一个文本文件。整个PDF存储为一个字符串。字符串的一般格式如下：要捕获的字符串是：“字母数字单词</e

浏览 0提问于2019-04-13得票数 0

回答已采纳

1回答

如何在PyPDF2中增加对空格的容忍度？

、、、

我正在寻找最简单的方法来转换PDF到Python中的纯文本。PyPDF2看起来很简单，下面是我所拥有的：import PyPDF2for page in pdf.pages:但它给了我： InChapter5wepresentandevaluateourresu

浏览 0提问于2014-02-10得票数 0

3回答

如何计算给定PDF中给定单词的数量？

面试问题问题的措辞如下：如何在PDF中获得给定单词的实例计数。答案不一定是编程、平台或特定工具。

浏览 0提问于2012-01-24得票数 5

回答已采纳

3回答

在Python中阅读PDF包？

、、

我有一个pdf组合，这是由一个电子邮件线程，每个电子邮件包含附件。我想阅读每封电子邮件的文本，并提取附件。但是，我找不到关于如何在python中阅读pdf包的信息。我尝试过使用库PDFMiner和textract，但输出结果只是这样：“为了获得最佳体验，请在Acrobat X或Adobe Reader X或更高版本中打开此PDF包。

浏览 0提问于2017-01-12得票数 0

1回答

Azure机器学习无法将PDF作为web服务的输入

、

我在azure ML上部署了一个随机的森林实验，我试图根据文档包含的单词对文档进行评分。这些文档是PDF格式的。当我将这个实验部署为web服务时，它不允许我输入PDF。有没有一种方法可以将PDF输入到web服务？

浏览 0提问于2017-02-06得票数 1

1回答

R-迭代PDF中的页面

、、

我有一系列包含各种数据表的PDF文件。我只在每个文件中寻找一个特定的表，我的目标是找到每个文件在哪个页面上。我一直在研究PDFTools，但看起来没有一种方法可以遍历页面。任何帮助都将不胜感激！

浏览 4提问于2017-01-19得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在Python中从PDF中提取单词列表

相关·内容

在Python中从PDF中提取单词列表

从pdfs和文档中提取文本和元数据

PDF -将单个单词拆分为单独的行- Python 3

使用python显示docx文件的内容

Python:当从pdf中提取文本时，如何解决合并的单词？

python pypdf来读取pdf并获得突出显示的单词

使用pdftotext后:从txt中查找字符串页面

将PDF文档中的文本提取为单独的新文件名文档

提取LTFigure对象后面的文本

将pdfminer bbox坐标转换为iOS屏幕

用于读取PDF文件的Python

从pdf文件中获取数据

如何将索引与nltk.corpus中的单词结合使用？

如何在android中解析PDF文件？

使用带有重复结尾词的regex提取字符串的区段

如何在PyPDF2中增加对空格的容忍度？

如何计算给定PDF中给定单词的数量？

在Python中阅读PDF包？

Azure机器学习无法将PDF作为web服务的输入

R-迭代PDF中的页面

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐