在python中捕获部分pdf文件

文章/答案/技术大牛

发布

1回答

、

我有两页的pdf文件，在第一页的顶部有一个条形码 ? 有没有办法只从这种扫描的pdf文件在python中捕获条形码？我已经搜索过了，但没有找到这样的问题。我找到了这样的代码，但不能修改为只裁剪第一页的顶部 from PyPDF2 import PdfFileWriter, PdfFileReader

浏览 21提问于2021-02-09得票数 0

回答已采纳

1回答

用于多行python的Regex

、

我有以下案文：在.问题上 “ pat = "^\n+In the Matter of\n+(\s+\w+\s*)\n+ (Respondent

浏览 0提问于2019-07-22得票数 0

1回答

我们使用python测试套件来测试在内部开发的应用程序，它通过Selenium WebDriver完成web导航/交互。我们网络测试的一个棘手部分是在处理应用程序中的一系列pdf报告。我没有编写原始的pdf捕获代码，但我会为我们最终使用的16.0.1版本进行重构，所以我想知道是否有比我们目前正在做的更好的方法来保存使用Python的selenium webdriver绑定的pdf。在Firefox16.0.

浏览 0提问于2013-02-01得票数 2

回答已采纳

1回答

使用正则表达式捕获组(Python)

、

在python解释器中，我尝试使用括号来仅捕获搜索字符串的.pdf部分之前的内容，但是尽管使用了括号，我的结果仍然捕获了它。我做错了什么？import restring_two = 'file_07241999.pdf' string_three = 'testfile_fake.pdf</e

浏览 0提问于2018-02-10得票数 49

回答已采纳

2回答

NLP挑战:自动删除书目/参考文献？

、、

最近我遇到了以下问题:当在一堆解析的PDF文件上应用主题模型时，我发现引用的内容不幸也是模型的一部分。例如，引用中的单词出现在标记化的单词列表中。有什么已知的“最佳实践”来解决这个问题吗？我想到了一种搜索策略，在最后一次提到“引用”或“参考书目”之后，python代码会自动删除所有内容。如果我首先在全文中随意提及“引用”或“参考书目”，解析器可能无法捕获真正的完整内容。输入的PDF都来自不同的期刊，因此具有不同的页面结构。

浏览 0提问于2018-01-25得票数 0

回答已采纳

1回答

使用python将pdf转换为html页面

、、、

, dirnames, filenames in os.walk('FilePath'): # matches.append(os.path.join(root, filename))我需要写子进程，每次发现一个文件

浏览 4提问于2016-06-25得票数 0

3回答

将PDF转换为.ipynb (从PDF中恢复木星笔记本)

、、

我有一个PDF文件是从木星笔记本创建的，但是原始的.ipynb文件丢失了。有什么工具可以帮助将PDF转换成.ipynb吗？

浏览 2提问于2020-06-24得票数 0

1回答

使用pdftk一次解密多个PDF

、

我有10个PDF，要求一个用户密码打开。我知道那个密码。我想用解密的格式保存它们。它们的文件名遵循以下形式: static_part.dynamic_part_like_date.pdf 我想转换所有的10个文件。我可以在静态部分之后给出一个*，并对所有这些部分进行处理，但我也需要相应的输出文件名。因此，必须有一种方法来捕获文件名的动态部分，然后在输出文件名中使用

浏览 1提问于2011-04-14得票数 1

1回答

通过python将PPT转换为PNG

、、

我想将PPT转换为png，或其他使用Python的图像格式。这个问题已经在SO上被问到了，但本质上是建议在无头X服务器上运行OpenOffice，这是我上次使用它时绝对痛苦的事情。是否还有其他方法(希望只使用Linux CLI实用程序，并在它们之上使用纯Python )？

浏览 1提问于2010-03-15得票数 5

回答已采纳

5回答

使用python从MS word docx文件中逐页提取文本

、、、、

我有一个MS文件，我需要从其中提取文本分页。我尝试过python，但它可以提取整个文本，但不能提取页面。我还将docx转换为pdf，然后尝试文本提取。问题是，在转换之后，docx的页面结构发生了变化。例如，在转换时，字体大小被更改，而docx的一页中的文本内容在pdf中占用了多个页面。我正在寻找一个稳定的解决方案，可以从docx中提取分页文本(而不转换为pdf将更适合我的整个解决方案)。

浏览 9提问于2019-12-18得票数 4

回答已采纳

4回答

使用sed对部分匹配线进行内联替换

、

我有一个.md文件，其中包含对其他.md文件的多个引用，形式如下：[And another file](dir2/anotherfile.md)[Yet another file](dir3/yetanotherfile.md)[Another file](pdf/dir1/file.pdf) [And another file](pdf/di

浏览 4提问于2017-10-23得票数 2

回答已采纳

1回答

LF> os.system(filePath)替代品

、、、

我遇到了一个问题，因为在我的Python代码中，os.system(filePath)将执行，但是代码会停止，直到我手动关闭打开的PDF文件的窗口。我想打开一个PDF文件，使用openCV来捕获我的屏幕，从而捕获文件的图像。如果不关闭窗口代码不能运行，这就成了一个问题.

浏览 2提问于2016-03-31得票数 2

回答已采纳

3回答

使用Python提取文件名中包含无效字符的文件

、、、、

我使用python的zipfile模块提取一个.zip归档文件(以上的这个文件为例)。它的输出：Akval�ir, La police - The Font - Fr - En.pdf inflating:

浏览 1提问于2009-11-27得票数 4

回答已采纳

1回答

邮件枪附件未连接

、

/Expense Transfer Form.pdf")), data={ 'to'/Expense Transfer Form.pdf",)

浏览 0提问于2016-06-15得票数 0

1回答

抓取:在内存中不保留响应体的情况下刮取大型PDF文件

、、

假设我想用Scrapy抓取1GB的PDF，然后在进一步的请求中使用刮过的PDF数据。如何在不将1GB响应体保存在内存中的情况下做到这一点？(伪码：) return Request('https://my-large-pdf.pdf', self.parse_pdf) def parse_pdf(

浏览 9提问于2022-05-12得票数 0

1回答

用Python和pyPDF提取前两行PDF

、、

我使用python2.7和pyPDF从PDF文件中获取标题元信息。不幸的是，并非所有PDF都有元信息。我现在要做的是从PDF中抓取前两行文字。如何使用我现在拥有的代码来用pyPDF捕获前两行呢？= "pdf": continue # print the title ofdo

浏览 3提问于2016-09-29得票数 1

回答已采纳

1回答

Wireshark -如何合并PDF文件的部分内容数据

、、

我已经扫描了网络并捕获了PDF文件的部分内容，一些小的文件可以作为一个整体保存并导出，但是有些文件是在单独的数据包上划分的。如何合并这些数据包并导出PDF文件？

浏览 4提问于2017-04-12得票数 0

2回答

使用bash中的正则表达式重命名文件

我正在尝试使用regex重命名以下的几个文件。_3.pdfabcd_some_random_alphanumeric_5.pdfabcd_1.pdfabcd_2.pdf abcd_4.pdf 我正在尝试以下几种方法 rename 's/abcd_.

浏览 0提问于2018-06-02得票数 0

回答已采纳

2回答

使用语法在SPSS中保存错误日志

我正在运行python的SPSS，这意味着当我运行SPSS时，我看不到出现的错误。在SPSS中，是否有语法将错误保存在单独的日志文件中？

浏览 5提问于2014-10-02得票数 2

回答已采纳

1回答

使用带有重复结尾词的regex提取字符串的区段

、

我正在尝试使用python中的re模块提取一些原始字符串。要提取的部分的末尾由一个重复单词(重复多次)标识，当前的工作总是捕获重复单词的最后匹配。我如何才能改变这种行为？从pdf中提取了一个文本文件。整个PDF存储为一个字符串。字符串的一般格式如下：要捕获的字符串是：“字母数字单词和字符的集合”。一种可能的方法是使用内皮段进行拆分，然后只从第一<e

浏览 0提问于2019-04-13得票数 0

回答已采纳

点击加载更多