提取一个PDF中的所有数组可以通过以下步骤实现:
\[[\d\s,]+\]
来匹配方括号内包含数字、空格和逗号的文本。以下是一个示例代码,使用pdfplumber库来提取PDF中的所有数组:
import pdfplumber
import re
def extract_arrays_from_pdf(pdf_path):
arrays = []
with pdfplumber.open(pdf_path) as pdf:
for page in pdf.pages:
text = page.extract_text()
matches = re.findall(r'\[[\d\s,]+\]', text)
arrays.extend(matches)
return arrays
pdf_path = 'path/to/your/pdf/file.pdf'
result = extract_arrays_from_pdf(pdf_path)
print(result)
这段代码使用pdfplumber库打开PDF文件,并遍历每一页的文本内容。然后使用正则表达式\[[\d\s,]+\]
匹配方括号内包含数字、空格和逗号的文本,并将匹配到的数组存储到列表中。最后打印出提取到的所有数组。
请注意,这只是一个示例代码,实际应用中可能需要根据PDF的具体格式和内容进行适当的调整。
领取专属 10元无门槛券
手把手带您无忧上云