腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
从
Beautiful
Soup
嵌套
对象
中
提取
并
存储
链接
、
、
我正在尝试
从
网页
中
抓取
并
保存
链接
。这些
链接
被组织为博客的blogroll部分
中
的小部件。我已经知道如何创建一些Beautifulsoup
对象
的列表,但无法从这些
对象
的子集中
提取
链接
。我花了很多时间尝试各种类型的find、find_all,并重新
存储
这些
对象
。i686) Gecko/20071127 Firefox/2.0.0.11'}) documen
浏览 6
提问于2019-04-15
得票数 0
回答已采纳
1
回答
从
多个网站中
提取
文本
、
、
read_list = list_open.read()for url in line_in_list:
beautiful
print
s
浏览 0
提问于2018-09-16
得票数 1
回答已采纳
1
回答
查找正则表达式以
从
html查找
链接
、
尝试
从
hls
中
的以下htm数据
中
查找
链接
:使用regex.Tried (r"(?.*)"),但它给出了部分
链接
https://mvd4.ddns.me:443/1vod5n/almajde-ben-zaher-1,有什么建议吗? <!
浏览 0
提问于2019-10-24
得票数 0
1
回答
Python 3.6美丽的汤-在Web抓取过程
中
获取嵌入式视频URL的麻烦
、
、
、
、
我正在尝试抓取一个网页,
并
使用Python3.6
中
的
Beautiful
Soup
和requests模块检索网页上嵌入的视频的URL。当我在Chrome
中
查看网页上的超文本标记语言时,我可以看到视频的.mp4
链接
。但是当我使用requests和
Beautiful
Soup
获取页面时,我找不到"video“节点。我知道视频窗口是一个
嵌套
的HTML文档。特别是,我想要抓取这个网页- http://videole
浏览 25
提问于2020-08-26
得票数 4
1
回答
从
BeautifulSoup
对象
获取URL
、
有人向我的函数传递了一个使用典型调用获得的BeautifulSoup
对象
(BS4):我的代码: url =
soup
.???如何
从
soup
对象
中
获取原始URL?我试着阅读文档和BeautifulSoup源代码...我还是不确定。
浏览 2
提问于2019-02-22
得票数 1
回答已采纳
1
回答
没有
提取
所有数据
、
、
、
目前,我希望
从
URL html中
提取
特定的发行者数据,
并
使用
Beautiful
从
卢森堡证券交易所获得一个特定的类和ID。我使用的示例
链接
是这样的:和我试图
提取
的数据是以文本形式
存储
在'Issuer‘下的名称;在这个例子
中
,它是'BNP发行BV’。我发现我的当前代码只
提取
了一些html,而且我不知道如何扩展它正在拖动的数据。BeautifulSoup URL = "https:/
浏览 3
提问于2021-04-12
得票数 0
1
回答
如何
从
Beautiful
Soup
中
的
嵌套
标签中
提取
文本?
、
、
、
我希望网络抓取谷歌的结果,
并
希望获得出现的第一块信息。如何指定要从中
提取
文本的特定HTML路径?URL for a citysrc = results.content
soup
= BeautifulSoup(src, "lxml") # Try
浏览 0
提问于2019-06-25
得票数 0
2
回答
递归迭代div - BeautifulSoup
中
的
嵌套
标记
、
我想使用
Beautiful
Soup
浏览div标记来
提取
一些数据。</p> </div> 原始的HTML文档在div
中
可能包含30多个
嵌套
标签(包括其他标签,如span,甚至可能是
嵌套
的div),我需要浏览所有这些标签 到目前为止,我
提取
了HTML并
存储
在一个变量
中
important_data_to_be_extracted =
soup
.find("div&qu
浏览 9
提问于2020-04-08
得票数 0
1
回答
抓取网站时缺少HTML元素。Python
、
、
、
、
我正在尝试使用bs4和Selenium
从
网站中
提取
HREF。但是,当我使用
Beautiful
解析HTML时,我要查找的元素就会丢失。当我稍后尝试搜索它们时,我只会得到NoneType
对象
。my_url = browser.current_urlpage_html = uClient.read()page_
soup
=
soup
(page_html, "html.parser") 但当我跑
浏览 2
提问于2020-11-16
得票数 0
回答已采纳
1
回答
Google应用引擎:获取大量的urls和数据处理
、
、
、
在我的应用程序
中
,我获取大量的urls和解析信息。我正在尝试使用延迟库和任务队列。我将每个页面的抓取分割成单独的任务,并进行以下处理。以下是延迟任务的示例: fetch url someprocessing之后,在post处理程序
中
,我在循环中运行这个任务: deferr
浏览 2
提问于2015-01-25
得票数 0
回答已采纳
1
回答
使用美丽汤的Python网络爬虫的BFS算法?
、
、
、
我必须创建我自己的网络爬虫(出于教育目的),它通过每个(或尽可能多的)保加利亚网站(Linux域)爬行,
并
使用.bg shell或requests库
中
的curl -I命令返回运行它的服务器。我正在使用一个大型的类似数据库的网站,其中包含许多其他网站的
链接
,作为一个很好的起点。 因此,我必须检查每个站点中的每个
链接
,
并
检查运行它的服务器,将其推送到数据库
中
。棘手的是,我需要打开每个
链接
,深入到更深的地方,然后打开其他
链接
(比如树)。所以我的想法是,我必须
浏览 4
提问于2016-02-13
得票数 0
1
回答
使用漂亮的汤
提取
数据
、
、
、
the variable 'page'
soup
= BeautifulSoup(page,"html.parser")for link in all_links: #print
浏览 0
提问于2017-05-23
得票数 0
3
回答
忽略Python
中
的XML错误
、
、
我在Python语言中使用了XML minidom (xml.dom.minidom),但是XML
中
的任何错误都会杀死解析器。有没有可能忽略它们,比如浏览器?
浏览 0
提问于2008-12-30
得票数 6
回答已采纳
2
回答
如何
提取
嵌套
在多个划分元素
中
的锚元素
、
、
、
、
我试图用一个公共的类attr
从
我漂亮的
soup
对象
中
提取
锚元素,每个类都
嵌套
在多个分区
中
。这些划分是重复的,并用一些脚本分隔 我尝试利用锚元素
中
的公共类属性来
提取
它们。我尝试过的: import requests, bs4, webbrowser webpage.raise_for_status()
soup
=bs4.BeautifulSoup(w
浏览 22
提问于2019-05-27
得票数 2
回答已采纳
1
回答
使用
Beautiful
Soup
和Requests
提取
数据
、
、
我正在尝试使用
Beautiful
soup
和requests包
从
堆栈溢出
中
抓取数据。我已经能够
提取
大部分细节,但是当我尝试
提取
用户的信誉得分时,我只能
提取
reputation score和Gold的数据,而不能
提取
Silver和Bronze计数的数据。/questions/53968946/how-can-i-limit-function-slot-play-just-for-5-turn-with-do-while-lo
浏览 21
提问于2018-12-30
得票数 1
回答已采纳
3
回答
利用BeautifulSoup
从
隐藏表单
中
获取值
、
、
、
我正在努力刮一个在HTML
中
包含以下内容的网站 <input name="__BeautifulSoup# parse the html using
beautiful
soup
and store in variablezd7XHXyVs7EgqObLzIfm9
浏览 0
提问于2018-06-18
得票数 1
回答已采纳
1
回答
如何测试美汤
对象
的类型?
、
、
这可能是一个非常基本的Python问题,尽管我在
Beautiful
Soup
中
遇到过它。问题是我不知道如何编写if语句来测试该类型。请参阅下面的python代码
中
的注
浏览 6
提问于2018-03-05
得票数 2
回答已采纳
1
回答
如何使用
Beautiful
从
xml标记中
提取
属性?
、
、
、
我正在尝试使用Django
中
的
Beautiful
来
提取
xml标记。Sep 2016 13:24:48 EDT</pubDate>Link2 goes here</item>
soup<
浏览 1
提问于2016-09-22
得票数 3
回答已采纳
2
回答
用美汤抓取网页会让ResultSet变空
、
、
、
我正在试验
Beautiful
Soup
,
并
试图
从
包含以下类型片段的HTML文档中
提取
信息:<h3 class="entity-name with-profile"></p>我使用了以下命令: with open("C:\Users\pv\MyFiles\HTML\Invites.html",&
浏览 10
提问于2017-01-10
得票数 1
回答已采纳
1
回答
无法通过网络抓取
从
Google搜索页面
中
抓取所有
链接
、
、
、
、
最近我试着
从
Google SERP的搜索结果
中
抓取域名。为此,我使用了Requests,
Beautiful
Soup
和Regex来获取页面,解析标签,查找href,
并
使用regex match来
提取
域名。r
浏览 1
提问于2021-06-08
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python基础教程 Beautiful Soup
爬虫-Beautiful Soup攻略
Python 爬虫:爬取小说花千骨
网页解析之Beautiful Soup库运用
用Python做网页爬虫
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券