要让循环只在pdf_text上读取所有的文件,可以按照以下步骤进行操作:
以下是一个示例代码片段,使用Python和PyPDF2库来实现上述步骤:
import os
from PyPDF2 import PdfFileReader
# 定义pdf_text文件夹路径
pdf_folder = 'pdf_text'
# 获取pdf_text文件夹中的所有文件
files = os.listdir(pdf_folder)
# 循环读取每个文件
for file in files:
# 构建文件的完整路径
file_path = os.path.join(pdf_folder, file)
# 检查文件是否为PDF格式
if file.endswith('.pdf'):
try:
# 打开PDF文件
with open(file_path, 'rb') as f:
# 创建PdfFileReader对象
pdf = PdfFileReader(f)
# 获取PDF文件的页数
num_pages = pdf.getNumPages()
# 循环读取每一页的文本内容
for page_num in range(num_pages):
page = pdf.getPage(page_num)
text = page.extract_text()
# 在这里可以对提取的文本内容进行进一步处理
# 打印文本内容
print(text)
except Exception as e:
# 处理可能出现的异常情况
print(f'Error reading file: {file_path}')
print(str(e))
else:
print(f'Invalid file format: {file_path}')
请注意,上述代码仅为示例,实际情况可能需要根据具体需求进行适当的修改和调整。另外,根据你的具体需求,可能需要使用其他库或工具来解析PDF文件或进行文本提取。
云+社区技术沙龙[第14期]
DBTalk技术分享会
DBTalk
DB TALK 技术分享会
DBTalk
Techo Day 第二期
第四期Techo TVP开发者峰会
云+社区技术沙龙第33期
领取专属 10元无门槛券
手把手带您无忧上云