从PyQuery或PDFQuery中的下一个同级文件中提取PyQuery和PDFQuery文本

文章/答案/技术大牛

发布

1回答

、、、、

我正在尝试使用PDFQuery包从PDF中提取信息。信息并不是每次都在同一个位置，所以我需要一个查询标记。首先，我编写了函数： def clean_text_data(text): return text.split(':')[1] 然后我编写了一个函数来提取文本： Date = clean_text_data(pdf.pq('LTTextLineHorizontal:contains("Date")').text()) 然而，问题是

浏览 42提问于2020-04-21得票数 0

1回答

在pdfminer中输入坐标并得到结果

、

我正试图通过输入协调文件在pdf矿工中提取文本，我搜索过互联网，但没有找到任何与that.So相关的文档或代码，我找到了一个提取文本并输出其协调功能的代码。这是我获得的输出、协调和文本之一。我也尝试过pdfquery，但是我有很多错误。File "C:\Python27\lib\site-packages\pyquery-1.2.11-py2.7.egg\pyqu

浏览 5提问于2016-02-23得票数 0

2回答

将pdf转换为python中的text/html，这样我就可以解析它了。

、、、

我有以下示例代码，其中我从欧洲议会网站下载了一个关于给定立法提案的pdf：import mechanize soup2 = BeautifulSoup(response2)在get_pdf()函数中，我希望将pdf文件转换为python中的文本</

浏览 1提问于2010-09-04得票数 5

回答已采纳

2回答

如何使用python向任何给定文件添加数字签名

、、

如何使用python向任何给定的文件添加数字签名并进行验证。即输入一个文件，输出一个数字签名的文件，并给出一个带有密钥的数字签名文件来验证数字签名。如何使用python做到这一点？

浏览 8提问于2017-03-03得票数 4

2回答

使用Python从PDF中的物理坐标返回文本字符串

、

在过去的几个小时里，我一直在与谷歌和有限的PDFMiner文档作斗争，尽管我感觉很接近，但我就是没有得到我需要的东西。我已经通过和所有三个YouTube视频对PDF有了更好的理解，我能够很好地输出原始文本。我正在研究一个脚本来解析多个PDF页面。不幸的是，对于这个项目，我处理的是质量很差的PDF文件，我看到的唯一可靠的常量是文本字符串的

浏览 5提问于2012-02-19得票数 5

回答已采纳

4回答

在windows上安装pyquery

、、

我想在windows上安装pyquery。但是我不能在命令行上运行setup.py安装。你有什么提示吗？

浏览 2提问于2009-12-28得票数 4

回答已采纳

3回答

python从字符串获取链接

、

我需要使用python脚本来获取一封电子邮件，并从中提取一个链接，然后他们使用该链接将数据包发送到一个服务器，该服务器内有该验证链接，因此它可以验证一个帐户。</p>\r\n\r\n<p>Regards,<br />\r\nRobTop Games</p>\r\n</body>\r\n</html>\r\n\r\n\r\n'}当*表示任意长度

浏览 2提问于2018-03-04得票数 0

2回答

使用Python抓取PDF文本(pdfquery)

、、

我需要抓取一些PDF文件来提取以下文本信息：我尝试过使用pdfquery来实现这一点，我在Reddit上找到了一个例子(参见第一篇文章)：from lxml import etree PDF_FILE = 'C:\

浏览 0提问于2018-10-07得票数 2

3回答

Regex用于从python中的html中提取所有常规文本

、

如何从部分html文本中提取除html标记以外的所有内容？也就是说，如果我有以下类型的东西：我想提取'Hello'，'world‘>[a-zA-Z0-9]+< 但它不会包含特殊字符和我需要的中文或希伯来

浏览 1提问于2013-02-08得票数 0

1回答

Python库和ebook/pdf文件管理

、、

我有数不清的数字格式的书籍，更多的是pdf格式的，但也有很多是电子酒吧格式的。它们太多，很难在文件夹中排序，可能是两个文件夹的一部分，因此它们被保存在一个文件夹中，而在其他文件夹中只有一个指向文件的链接。我找了一个电子书阅读器软件，可以自己区分和附加任何书籍到一套，但我没有找到这么多。因此，我决定编写一个能够这样做的</

浏览 10提问于2022-10-21得票数 -1

回答已采纳

4回答

涉及具有属性的HTML标记的Python web抓取

、、、

我正在尝试制作一个网络爬行器，它将解析出版物的网页并提取作者。located here ###</td></tbody></div></body>到目前为止，我一直在尝试使用BeautifulSoup和lxml来完成这项任务，但我不确定如何处理这两个div标记和td标记，因为它们都有

浏览 0提问于2009-09-08得票数 8

回答已采纳

3回答

使用Python进行复杂的HTML解析

、

我已经知道在Python中使用BeautifulSoup、htmllib等进行基于标签的超文本标记语言解析。然而，我想要一个强大的引擎，可以做复杂的任务，如读取html表，列表等，并提出这些作为简单的使用代码中的对象。python有这么强大的库吗？

浏览 2提问于2010-07-03得票数 4

3回答

将PDF数据抓取到Excel 绝对初学者

、、、、

对我来说，这是蟒蛇的第一天。我过去曾用VBA、Java和Swift编写过代码，但我在网上编写pdf刮刀的指南时遇到了特别困难。基本信息在python中创建一些内容，允许我将PDF从文件夹转换为excel文件(ideallY)或<

浏览 4提问于2017-06-12得票数 2

1回答

如何使用PYTHON批量处理PDF数据，再导出PNG？

、

本地数据迁移至云端工作系统，需要将大量的PDF文本中的价格信息抹除，再导出成PNG格式的图片，如何实现

浏览 201提问于2022-05-24

6回答

从存储的.html页面中提取新闻文章内容

、、

我正在从html文件中读取文本并做一些分析。这些.html文件是新闻文章。r').read() raw.unidecode(item.decode('utf8'))我知道一些工具，如Jsoup( java )和，但我想在python中这样做。我可以找到一些使用<em

浏览 8提问于2015-05-20得票数 16

回答已采纳

2回答

复制python中嵌套的html列表？

、

我是一个初级程序员，所以这可能是一个很小的问题:我有一个.html文件，其中有一个嵌套很深的无序列表。例如，我如何在Python中将前4个嵌套级别复制到一个新的空.html文件中？为了更好地说明，这里是Javascript中显示效果的代码： var use = root;

浏览 3提问于2012-07-20得票数 1

2回答

在PHP中使用QueryPath从HTML兄弟元素中检索文本

、、

我使用PHP和QueryPath库从一些旧的HTML文件中提取数据。当我需要的元素具有惟一的css3 ID或类时，提取很容易，但情况并不总是如此。我有一些包含以下类型数据的文件：<div class="1">Heading1</div><div class="2" t

浏览 1提问于2011-03-24得票数 1

1回答

根据同一级别的另一个子元素文本提取子元素中的文本

、、

我是XML的新手，我已经考虑这个问题很长一段时间了……我想用python从xml文件中提取基于另一个相同级别的元素中的另一个文本内容的文本内容： xml看起来是这样的： <element2> <source我想提取基于文本"content1“的文本"content2”。然而，如果我使用了it

浏览 15提问于2019-09-11得票数 0

回答已采纳

4回答

使用python处理pdf中的表

、、

我正在写一个pdf文件。在该pdf中有许多表格。我做过html，xlm解析，但从来没有用过pdf。谁能告诉我如何使用python从pdf中获取表格？

浏览 3提问于2012-03-20得票数 5

1回答

从文件中自动提取节(和节标题)

、、、、

我需要从.Rmd文件中提取所有的子部分(用于进一步的文本分析)和它们的标题(例如，从01-tidy-text.Rmd的整洁文本挖掘书：)。我只知道一个部分从##符号开始，并一直运行到下一个#、##符号或文件的末尾。整个文本已经被提取(使用dt <- readtext("01-tidy-text.Rmd"

浏览 1提问于2018-05-09得票数 0

回答已采纳

点击加载更多