腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
0
回答
BeautifulSoup
通过
html
标签
中
的
2个
术语
查找
文本
-
Python3
、
、
、
、
我试图从一个
html
文件
中
抓取一些
文本
,但是我需要两种不同类型
的
文本
,它们
的
标签
中有一个
术语
(contextref),例如: 1) <ix:nonfraction contextref="cfwd_30numdotdecimal" scale="0" xmlns:ix="http://www.xbrl.org/2008/inlineXBRL">
浏览 0
提问于2017-01-03
得票数 0
1
回答
匹配网页
html
代码
中
任何位置
的
列表
中
的
字符串,包括内部标记、注释等
、
我有一个字符串
术语
列表,例如mylist = 'herring','wix.com',‘解决方案’,我正在试图找出这些
术语
中
的
任何一个是否存在于我在一个单独列表
中
的
任何一个网站
的
html
代码
中
,包含在
html
我能够使用请求和
BeautifulSoup
下载和解析网站,但我正在努力完成上面的任务。我之所以想这么做,是因为它并不总是显而易见
的
,确切
浏览 2
提问于2020-12-02
得票数 0
回答已采纳
1
回答
如何使用Python
查找
包含特定
文本
的
特定
html
行
、
、
、
我正在
通过
HTML
查找
存储在一行
中
的
名称值对。我不知道如何在漂亮
的
soup find命令中指定要搜索
的
文本
。from bs4 import
BeautifulSoup
<tr> <td> <span>112120<
浏览 111
提问于2018-08-02
得票数 0
回答已采纳
3
回答
需要帮助解析
python3
中
的
html
,对于xml.etree.ElementTree来说格式不够好
、
、
、
我到处都收到不匹配
的
标签
错误。我不确定为什么,这是craigslist主页上
的
文本
,我看起来很好,但我还没有看得够彻底。有没有更好
的
东西可以让我使用,或者这是我用标准库解析
html
的
最佳选择?
浏览 0
提问于2011-02-13
得票数 3
2
回答
Python:从
html
文件
中
获取和解析
文本
、
、
我正在尝试做一个关于页面排名
的
项目。我想做一个索引(字典),看起来像这样:file2.
html
-> [狗,叫,跑,文件1.
html
,文件4.
html
] 获取链接很容易-
查找
锚点标记。我
的
问题是-如何获取
文本
?
html
文件
中
的
文本
浏览 0
提问于2010-10-17
得票数 0
回答已采纳
7
回答
Python/
BeautifulSoup
-如何从元素
中
删除所有
标签
?
、
如何才能简单地从
BeautifulSoup
中找到
的
元素
中
剥离所有标记?
浏览 1
提问于2013-04-25
得票数 88
2
回答
我需要使用漂亮汤python从类标记
中
检索数据,而内部标记
中
没有数据。
、
、
</span> 我只需要得到“显示131个广告
中
的
1-25”部分使用美丽汤库。
浏览 0
提问于2019-02-12
得票数 0
1
回答
使用
BeautifulSoup
查找
“团队”页面
、
、
为了实践,我一直在学习Python和
BeautifulSoup
的
web抓取。我要做一个程序,可以找到一个网站上
的
团队页面,并抓取团队成员
的
名字。我如何浏览一个网站
的
主页,找到一个“团队”,或者任何有特定主题
的
页面呢?这和
查找
联系人页面的问题是一样
的
,你如何让抓取器找到它呢?这是我
的
代码
的
完整部分:(这只是加载站点) #Pre: url is a string containing the address of
浏览 1
提问于2017-04-09
得票数 0
2
回答
解析
HTML
以检索
术语
、
、
所以,现在我有了一堆被爬行
的
URL。我需要创建一个使用向量空间
的
索引,或者至少一个
HTML
中所有
术语
的
列表。如何解析该网页
中
的
所有
术语
?我有点不明白,我应该在特定
的
标签
之间获取
文本
,或者其他
的
东西,或者我应该使用哪个库?我完全迷路了。下面是我需要对
HTML
所做
的
事情: 您可以在线使用
html
解析器,但原则上
浏览 0
提问于2018-12-08
得票数 1
回答已采纳
1
回答
如何使用美汤在
标签
之外
查找
和更改
文本
?
、
、
我有一个这样
的
文件:我想要在tag1之外提取字符串,并用漂亮
的
汤将其更改为如下所示:如何用
beautifulSoup
替换
标签
外
的
单词?
浏览 2
提问于2017-08-18
得票数 1
2
回答
带有正则表达式
的
Python
BeautifulSoup
find_all与
文本
不匹配
、
、
、
、
Shop <i class="fa fa-angle-down cbp-submenu-aindicator"></i></span>prog = re.compile('\s*Shop\s*') print(soup.find_all("a&qu
浏览 28
提问于2020-04-30
得票数 0
回答已采纳
1
回答
美汤在源文件中找到
标签
的
位置?
、
、
我正在使用
BeautifulSoup
从
HTML
文件中提取信息。我希望能够捕获信息
的
位置,即在
HTML
文件
中
的
标签
,BS
标签
对象
的
偏移量。 有没有办法做到这一点?我目前使用
的
是lxml解析器,因为它是默认
的
。
浏览 22
提问于2018-03-03
得票数 0
回答已采纳
1
回答
如何使用
BeautifulSoup
查看闭合
标签
的
总数?
、
下面的代码检查是否有一个以上
的
打开
html
标签
, <
html
> </
html
>""" soup =
BeautifulSoup
(invalid, '
html
.
浏览 0
提问于2014-03-02
得票数 1
2
回答
Python
BeautifulSoup
-在找到
的
关键字周围添加
标签
、
、
、
、
我目前正在做一个项目,在这个项目中,我希望允许在大量
HTML
文件
中
/对其进行正则表达式搜索。然而,我也想在我找到
的
关键字周围添加我自己
的
-Tags。使用BFSoup提供
的
find()-functions
浏览 0
提问于2013-02-02
得票数 2
回答已采纳
3
回答
使用bs4进行超
文本
标记语言解析
、
我正在解析一个
HTMl
页面,并且很难弄清楚如何在没有类或id
的
情况下拉出某个'p‘
标签
。我正在试着用lat和long来达到'p‘
的
标签
。下面是我当前
的
代码: from urllib import urlopen as uReq #this opens the URL my_
浏览 0
提问于2018-04-03
得票数 4
回答已采纳
4
回答
使用
BeautifulSoup
从img
标签
中提取源属性
、
、
div class="someClass"> <img alt="some" src="some"/></div> 我想使用
BeautifulSoup
从图像(即img)
标签
中提取源(即src)属性。
浏览 1
提问于2017-05-15
得票数 50
4
回答
如何使用Beautiful soup
查找
没有兄弟姐妹
的
P
标签
、
、
一些<p></p>
标签
有<img>
标签
和<h4>
标签
,但我只想要那些<p>
标签
,其中没有兄弟
标签
在它只是内容。<p> <img src="any url"/> </p> <p> hello world </p> 我想要没有使用漂亮汤
的
<img>
标签
的
<
浏览 8
提问于2019-01-28
得票数 2
1
回答
有关请求url响应404
的
问题,但在浏览器和刮取标记
中
成功。
、
、
、
我试图在上刮网站上
的
标签
。我可以在Chrome上成功地打开url,但是当在
Python3
中
使用
Python3
时,它显示
的
是404 error。这是我
的
代码:from bs4 import
BeautifulSoup
url = "https://vote4.hk/zh/district/2019/A04"r = requests.get(
浏览 3
提问于2019-11-14
得票数 1
回答已采纳
2
回答
在beutifulsoup
中
查找
字符串
、
、
我正在搜索紧接在我想要
的
标签
之前
的
文本
City:城市和州字符串。下面是
html
: <a href="/city/New-York-New-York.
html
">New York, NY</a>zipCode = str(11021) url = "http://www.city-data.com/z
浏览 1
提问于2013-12-02
得票数 0
2
回答
在
BeautifulSoup
中
,如何在一个元素
中
搜索另一个元素?
、
、
、
我使用
的
是Django 2,Python3.7和
BeautifulSoup
4。我有下面的代码,它应该在一个元素中找到一个元素……
html
= urllib2.urlopen(req, timeout=settings.SOCKET_TIMEOUT_IN_SECONDS).read()patte
浏览 20
提问于2020-03-03
得票数 0
回答已采纳
点击加载更多
相关
资讯
简单几行代码提取html文件中全部指定标签内的文本
BeautifulSoup解析库select方法实例——获取企业信息
Python爬虫从入门到精通(3):BeautifulSoup用法总结及多线程爬虫爬取糗事百科
Python爬虫之BeautifulSoup详解
Python爬取:Python教程并制作成pdf
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券