如何使用re.search语法来匹配pdf文档中的关键字列表？

re.search语法是Python中的正则表达式模块re中的一个方法，用于在字符串中搜索匹配指定模式的内容。要使用re.search语法来匹配pdf文档中的关键字列表，可以按照以下步骤进行操作：

导入必要的模块：

import re
import PyPDF2

打开pdf文档：

pdf_file = open('example.pdf', 'rb')
pdf_reader = PyPDF2.PdfFileReader(pdf_file)

这里使用了PyPDF2库来处理pdf文档，需要先安装该库。

定义关键字列表：

keywords = ['keyword1', 'keyword2', 'keyword3']

将需要匹配的关键字存储在一个列表中。

遍历pdf文档的每一页：

for page_num in range(pdf_reader.numPages):
    page = pdf_reader.getPage(page_num)
    page_text = page.extractText()

使用getPage方法获取每一页的内容，并使用extractText方法提取文本内容。

使用re.search语法匹配关键字：

for keyword in keywords:
    if re.search(keyword, page_text, re.IGNORECASE):
        print(f"关键字 {keyword} 在第 {page_num+1} 页中找到了。")

使用re.search方法在每一页的文本内容中搜索关键字，re.IGNORECASE参数表示忽略大小写。如果匹配成功，则打印出关键字在哪一页中找到。

完整代码示例：

import re
import PyPDF2

pdf_file = open('example.pdf', 'rb')
pdf_reader = PyPDF2.PdfFileReader(pdf_file)

keywords = ['keyword1', 'keyword2', 'keyword3']

for page_num in range(pdf_reader.numPages):
    page = pdf_reader.getPage(page_num)
    page_text = page.extractText()

    for keyword in keywords:
        if re.search(keyword, page_text, re.IGNORECASE):
            print(f"关键字 {keyword} 在第 {page_num+1} 页中找到了。")

pdf_file.close()

注意：以上代码只是简单示例，实际应用中可能需要处理更复杂的pdf文档结构和内容提取方式。另外，关于pdf文档的处理和解析，还可以考虑使用其他专门的pdf处理库，如pdfminer、pdfplumber等。

如何使用re.search语法来匹配pdf文档中的关键字列表？

、、

我希望使用re.search函数，该函数将使用我的关键字列表来提取页码，其中的文本包含这些关键字NumPages = file.getNumPages()for i in range(0, NumPages): Text = PageObj.extractText() if re.search(S

浏览 25提问于2019-08-11得票数 0

3回答

搜索字符串列表，并确定在单独的字符串列表中是否存在精确匹配。巨蟒。情绪分析

、

假设我有一个关键字列表和一个句子列表：listOfStrings = ['I am frustrated', 'thistask is foobar', 'mauer is awesome'] 我如何遍历我的listOfStrings并确定它们是否包含任何keywords...Mus

浏览 4提问于2013-05-13得票数 0

回答已采纳

2回答

如何使用python中每个元素的正则表达式创建一个新列表？

、、、

我一直在尝试一些不同的语法，但似乎都不起作用，我收到了语法错误"TypeError：'str‘object not support item assignment“等等 filename[i] = [re.search(r'/([.]+)(.pdf)') for url[i] in urls]我也尝试过： file

浏览 0提问于2012-05-06得票数 0

回答已采纳

4回答

从字符串中的单词列表中查找第一个匹配项

我正在编写一个函数，该函数在字符串中查找关键字并返回第一个匹配项(如果有的话)。关键词是“什么”、“何时”、“谁”用户以一个问题的形式输入一个字符串：“谁是约翰康纳”函数返回"who" keywords =

浏览 2提问于2019-11-11得票数 1

1回答

如何将关键字与最佳描述匹配

、、、

每行由多个逗号分隔的关键字组成。我有另一个包含一些描述的表格。我想遍历所有的描述，并想找出哪行关键字是该描述的最佳匹配。我如何才能做到这一点。我使用的是PHP和Mysql。我也在使用狮身人面像。还有没有其他的方法呢？提前感谢：)

浏览 0提问于2014-10-14得票数 0

1回答

Python \pL匹配问题

、

我试图匹配我的关键字列表，注意包括所有拉丁字符(例如重音)。import regex as re给予：NoneNoneprint(re.search

浏览 3提问于2021-08-25得票数 2

回答已采纳

1回答

Python，NLP -查找包含给定单词列表的顶级文档

、

我是学习NLP的新手。我正在试着找一份最匹配的简历。例如，我有一个我正在寻找的技能列表，比如'java'，'python'，'SQL'，'API'，...和一组文档。我想创建一个模型来找到与这些技能最匹配的文档。类似于恢复匹配。我从这个教程开始-- Extracting words from pdf作为参考我能够从<

浏览 9提问于2020-04-23得票数 0

1回答

带有快照的全文搜索引擎

、、、、

是否可以使用PDF Box获取PDF文档页面的快照？我想使用一个关键字从pdf文件中匹配一个页面，然后显示该文本所在页面的快照。有谁能为我指明正确的方向，告诉我应该从哪里开始？我计划使用Lucene和PDF box来实现这一点，并使用C#。

浏览 2提问于2013-01-23得票数 0

3回答

根据另一个列表中的值对列表进行排序

、、、

我有两个列表：invoice_ordering_list和pdfs。我需要根据pdfs的顺序对invoice_ordering_list进行排序。Inv 265165.pdf', 'Est. 42477 April Bill Inv 265114.pdf,我试过：pd

浏览 2提问于2020-05-28得票数 0

回答已采纳

1回答

是否可以在上传的pdf或google文档中搜索关键字？

情况是这样的：我有一个pdf和google文档在我的驱动器文件列表。我想构建一个界面，可以在这些文档中搜索关键字，并返回文档名称和匹配搜索参数的文本的可能预览。这是可能的吗?或者它的一些变体？

浏览 2提问于2012-10-30得票数 0

1回答

可在网站上搜索多个PDF

、、

我有大量的PDF需要在网上发布。但是，为每个PDF维护扩展关键字<e

浏览 0提问于2017-10-25得票数 0

回答已采纳

1回答

ANTLR4标记一组庞大的关键字

我想将一些已知的标识符名称嵌入到我的语法中，例如，我的项目的类名是已知的，我想告诉lexer哪些标识符是实际属于class-name标记的已知关键字。但是由于我有一个很长的类名列表(数百个名称)，我不想通过在规则中列出所有已知的类名关键字来创建一个类名lexer规则，这会使我的语法文件太大。是否可以将我<em

浏览 1提问于2013-05-07得票数 0

回答已采纳

1回答

在关键字列表中使用cons运算符“\”

我试图定义一个函数，其中我指定了一个关键字列表的一部分，然后匹配剩下的选项作为尾部。baz) doend baz是一个关键字列表，包含another_arg: 11，even_more_args: 12错位操作符/2 在括号中，通常会<e

浏览 4提问于2020-12-21得票数 2

回答已采纳

2回答

字符串值，手动列表

、、、

如何在Stata中创建字符串值的循环？下面是我试图做的事情的一个例子。我将在列表中有许多其他可能的值。我已经做了很多手动列表，所以我想以类似的格式来做，在这里您可以查看代码并查看列表。我在foreach和forval上找到了一些问题，但似乎找不到与foreach和string变量值直接相关的东西？我错过了一些很简单的东西吗？

浏览 2提问于2016-05-27得票数 0

2回答

SQL-在匹配表中的两列时使用if存在

、、

我试图使用洗涤剂、肥皂、盘等关键字来匹配sql表中的两列，如果关键字在两列中找到匹配，我希望有另一列表示匹配。我计划使用如果存在，但我不知道正确的语法。

浏览 1提问于2019-12-07得票数 1

回答已采纳

1回答

如何在MongoDb中为搜索的文档分配权重？

、、

这对你来说可能听起来很简单，但我已经花了3个多小时来实现它，但我被困在了中途。输入根据权重对发现的文档进行排序:每个关键字<em

浏览 2提问于2015-06-25得票数 1

回答已采纳

1回答

如何在PDF中提取特定位置/跨度的文本(PyPDF2)

、、、、

我已经从PDF页面提取了一个文本到文本变量。我希望提取字符串'your is‘之后的数字(14长度字符串在span (982,996)上匹配)：Text = PageObj.extractText()ResSearch = re.search(String, Text) 我得到了一个结果: span = (982,996) match现在，我所需要的只是刮掉后

浏览 1提问于2021-11-02得票数 0

6回答

使用regex从python中的列表中删除字母数字内容

of', 'u650', 'Hall', 'u123', 'in', 'u245', 'u963', 'was', 'a', 'man', 'who', 'u400'] 我试着用下面的for理解打印我的列表，以u开头的所有字符串，后面跟着任何数字，但是以output.This的形式获得空列

浏览 10提问于2017-02-09得票数 1

回答已采纳

5回答

Python中的正则表达式与字符串末尾不匹配

、

r1 = re.compile("$.pdf") print 'yes' print 'no'r1 = re.compile(r"$.pdf") r1 = re.compile('$.pdf

浏览 1提问于2012-08-30得票数 18

回答已采纳

2回答

Python使用RegEx在网页中搜索列表中的匹配项

、、、

因此，这里的最终目标是在Selenium中进行web爬行时识别与我列表中的任何项目相匹配的项。这可能是一个愚蠢的语法错误。代码：statuscheck = re.search回

浏览 14提问于2019-11-14得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何使用re.search语法来匹配pdf文档中的关键字列表？

相关·内容

如何使用re.search语法来匹配pdf文档中的关键字列表？

搜索字符串列表，并确定在单独的字符串列表中是否存在精确匹配。巨蟒。情绪分析

如何使用python中每个元素的正则表达式创建一个新列表？

从字符串中的单词列表中查找第一个匹配项

如何将关键字与最佳描述匹配

Python \pL匹配问题

Python，NLP -查找包含给定单词列表的顶级文档

带有快照的全文搜索引擎

根据另一个列表中的值对列表进行排序

是否可以在上传的pdf或google文档中搜索关键字？

可在网站上搜索多个PDF

ANTLR4标记一组庞大的关键字

在关键字列表中使用cons运算符“\”

字符串值，手动列表

SQL-在匹配表中的两列时使用if存在

如何在MongoDb中为搜索的文档分配权重？

如何在PDF中提取特定位置/跨度的文本(PyPDF2)

使用regex从python中的列表中删除字母数字内容

Python中的正则表达式与字符串末尾不匹配

Python使用RegEx在网页中搜索列表中的匹配项

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐