腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(8998)
视频
沙龙
1
回答
从
PyQuery
或
PDFQuery
中
的
下一个
同级
文件
中
提取
PyQuery
和
PDFQuery
文本
、
、
、
、
我正在尝试使用
PDFQuery
包
从
PDF中
提取
信息。信息并不是每次都在同一个位置,所以我需要一个查询标记。首先,我编写了函数: def clean_text_data(text): return text.split(':')[1] 然后我编写了一个函数来
提取
文本
: Date = clean_text_data(pdf.pq('LTTextLineHorizontal:contains("Date")').text()) 然而,问题是
浏览 42
提问于2020-04-21
得票数 0
1
回答
在pdfminer
中
输入坐标并得到结果
、
我正试图通过输入协调
文件
在pdf矿工中
提取
文本
,我搜索过互联网,但没有找到任何与that.So相关
的
文档
或
代码,我找到了一个
提取
文本
并输出其协调功能
的
代码。这是我获得
的
输出、协调和
文本
之一。我也尝试过
pdfquery
,但是我有很多错误。File "C:\Python27\lib\site-packages\
pyquery
-1.2.11-py2.7.egg\
pyqu
浏览 5
提问于2016-02-23
得票数 0
2
回答
将pdf转换为python
中
的
text/html,这样我就可以解析它了。
、
、
、
我有以下示例代码,其中我
从
欧洲议会网站下载了一个关于给定立法提案
的
pdf:import mechanize soup2 = BeautifulSoup(response2)在get_pdf()函数
中
,我希望将pdf
文件
转换为python
中
的
文本</
浏览 1
提问于2010-09-04
得票数 5
回答已采纳
2
回答
如何使用python向任何给定
文件
添加数字签名
、
、
如何使用python向任何给定
的
文件
添加数字签名并进行验证。即输入一个
文件
,输出一个数字签名
的
文件
,并给出一个带有密钥
的
数字签名
文件
来验证数字签名。如何使用python做到这一点?
浏览 8
提问于2017-03-03
得票数 4
2
回答
使用Python
从
PDF
中
的
物理坐标返回
文本
字符串
、
在过去
的
几个小时里,我一直在与谷歌
和
有限
的
PDFMiner文档作斗争,尽管我感觉很接近,但我就是没有得到我需要
的
东西。我已经通过
和
所有三个YouTube视频对PDF有了更好
的
理解,我能够很好地输出原始
文本
。 我正在研究一个脚本来解析多个PDF页面。不幸
的
是,对于这个项目,我处理
的
是质量很差
的
PDF
文件
,我看到
的
唯一可靠
的
常量是
文本
字符串
的
浏览 5
提问于2012-02-19
得票数 5
回答已采纳
4
回答
在windows上安装
pyquery
、
、
我想在windows上安装
pyquery
。但是我不能在命令行上运行setup.py安装。你有什么提示吗?
浏览 2
提问于2009-12-28
得票数 4
回答已采纳
3
回答
python
从
字符串获取链接
、
我需要使用python脚本来获取一封电子邮件,并从中
提取
一个链接,然后他们使用该链接将数据包发送到一个服务器,该服务器内有该验证链接,因此它可以验证一个帐户。</p>\r\n\r\n<p>Regards,<br />\r\nRobTop Games</p>\r\n</body>\r\n</html>\r\n\r\n\r\n'}当*表示任意长度
浏览 2
提问于2018-03-04
得票数 0
2
回答
使用Python抓取PDF
文本
(
pdfquery
)
、
、
我需要抓取一些PDF
文件
来
提取
以下
文本
信息:我尝试过使用
pdfquery
来实现这一点,我在Reddit上找到了一个例子(参见第一篇文章):from lxml import etree PDF_FILE = 'C:\
浏览 0
提问于2018-10-07
得票数 2
3
回答
Regex用于
从
python
中
的
html中
提取
所有常规
文本
、
如何
从
部分html
文本
中
提取
除html标记以外
的
所有内容?也就是说,如果我有以下类型
的
东西:我想
提取
'Hello','world‘>[a-zA-Z0-9]+< 但它不会包含特殊字符和我需要
的
中文
或
希伯来
浏览 1
提问于2013-02-08
得票数 0
1
回答
Python库
和
ebook/pdf
文件
管理
、
、
我有数不清
的
数字格式
的
书籍,更多
的
是pdf格式
的
,但也有很多是电子酒吧格式
的
。它们太多,很难在
文件
夹中排序,可能是两个
文件
夹
的
一部分,因此它们被保存在一个
文件
夹
中
,而在其他
文件
夹
中
只有一个指向
文件
的
链接。我找了一个电子书阅读器软件,可以自己区分
和
附加任何书籍到一套,但我没有找到这么多。因此,我决定编写一个能够这样做
的</
浏览 10
提问于2022-10-21
得票数 -1
回答已采纳
4
回答
涉及具有属性
的
HTML标记
的
Python web抓取
、
、
、
我正在尝试制作一个网络爬行器,它将解析出版物
的
网页并
提取
作者。located here ###</td></tbody></div></body>到目前为止,我一直在尝试使用BeautifulSoup
和
lxml来完成这项任务,但我不确定如何处理这两个div标记
和
td标记,因为它们都有
浏览 0
提问于2009-09-08
得票数 8
回答已采纳
3
回答
使用Python进行复杂
的
HTML解析
、
我已经知道在Python中使用BeautifulSoup、htmllib等进行基于标签
的
超
文本
标记语言解析。然而,我想要一个强大
的
引擎,可以做复杂
的
任务,如读取html表,列表等,并提出这些作为简单
的
使用代码
中
的
对象。python有这么强大
的
库吗?
浏览 2
提问于2010-07-03
得票数 4
3
回答
将PDF数据抓取到Excel *绝对初学者*
、
、
、
、
对我来说,这是蟒蛇
的
第一天。我过去曾用VBA、Java
和
Swift编写过代码,但我在网上编写pdf刮刀
的
指南时遇到了特别困难。基本信息 在python
中
创建一些内容,允许我将PDF
从
文件
夹转换为excel
文件
(ideallY)
或
<
浏览 4
提问于2017-06-12
得票数 2
1
回答
如何使用PYTHON批量处理PDF数据,再导出PNG?
、
本地数据迁移至云端工作系统,需要将大量
的
PDF
文本
中
的
价格信息抹除,再导出成PNG格式
的
图片,如何实现
浏览 201
提问于2022-05-24
6
回答
从
存储
的
.html页面中
提取
新闻文章内容
、
、
我正在从html
文件
中
读取
文本
并做一些分析。这些.html
文件
是新闻文章。r').read() raw.unidecode(item.decode('utf8'))我知道一些工具,如Jsoup( java )
和
,但我想在python
中
这样做。我可以找到一些使用<em
浏览 8
提问于2015-05-20
得票数 16
回答已采纳
2
回答
复制python
中
嵌套
的
html列表?
、
我是一个初级程序员,所以这可能是一个很小
的
问题:我有一个.html
文件
,其中有一个嵌套很深
的
无序列表。例如,我如何在Python中将前4个嵌套级别复制到一个新
的
空.html
文件
中
?为了更好地说明,这里是Javascript
中
显示效果
的
代码: var use = root;
浏览 3
提问于2012-07-20
得票数 1
2
回答
在PHP中使用QueryPath
从
HTML兄弟元素
中
检索
文本
、
、
我使用PHP
和
QueryPath库从一些旧
的
HTML
文件
中
提取
数据。当我需要
的
元素具有惟一
的
css3 ID
或
类时,
提取
很容易,但情况并不总是如此。我有一些包含以下类型数据
的
文件
:<div class="1">Heading1</div><div class="2" t
浏览 1
提问于2011-03-24
得票数 1
1
回答
根据同一级别的另一个子元素
文本
提取
子元素
中
的
文本
、
、
我是XML
的
新手,我已经考虑这个问题很长一段时间了……我想用python
从
xml
文件
中
提取
基于另一个相
同级
别的元素
中
的
另一个
文本
内容
的
文本
内容: xml看起来是这样
的
: <element2> <source我想
提取
基于
文本
"content1“
的
文本
"content2”。然而,如果我使用了it
浏览 15
提问于2019-09-11
得票数 0
回答已采纳
4
回答
使用python处理pdf
中
的
表
、
、
我正在写一个pdf
文件
。在该pdf中有许多表格。我做过html,xlm解析,但从来没有用过pdf。谁能告诉我如何使用python
从
pdf
中
获取表格?
浏览 3
提问于2012-03-20
得票数 5
1
回答
从
文件
中
自动
提取
节(
和
节标题)
、
、
、
、
我需要从.Rmd
文件
中
提取
所有的子部分(用于进一步
的
文本
分析)和它们
的
标题(例如,
从
01-tidy-text.Rmd
的
整洁
文本
挖掘书:)。我只知道一个部分
从
##符号开始,并一直运行到
下一个
#、##符号
或
文件
的
末尾。整个
文本
已经被
提取
(使用dt <- readtext("01-tidy-text.Rmd"
浏览 1
提问于2018-05-09
得票数 0
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
云直播
即时通信 IM
实时音视频
活动推荐
运营活动
广告
关闭
领券