使用requests.get并使用BeautifulSoup解析后，HTML标记中的属性值发生变化

文章/答案/技术大牛

发布

2回答

、、、

我正在尝试抓取雅虎财经()，但是与我试图获取的数据点相关联的属性值发生了变化。从图片中可以看到，"span“标记具有属性data-reactid="52”。(在图片上以蓝色突出显示)home_page = "https://finance.yahoo.com/quote/AAPL" response = requests.get(home_pa

浏览 10提问于2019-10-25得票数 0

1回答

通过python从xml数据中提取字符串数据

、、

我可以从xml标记中提取数据，但我面临着提取日期值(即字符串)的问题。xml数据看起来像 <Name>US Dollar</Name> </Valute> 我正在尝试提取日期值<

浏览 4提问于2017-04-24得票数 1

回答已采纳

1回答

脚本应该从显示结果子集的base_url获取所有链接，当滚动时，会将更多的结果添加到子集中，直到列表耗尽为止。我能够做到这一点，但问题是，我只能检索的少数几个链接，最初加载时，网页显示，而不执行任何滚动。响应应该能够通过web驱动程序与滚动同步更新。但是，到目前为止，这是我的代码。import reimport time from selenium import webdrivert_end): myb

浏览 7提问于2017-04-07得票数 1

回答已采纳

1回答

在2021-22赛季的篮球参考资料中，网络抓取每个球员的数据。

、

我目前正试图在R赛季期间为NBA球员开发一个公正的评分系统，而我所缺少的一个非常重要的信息是每个球员的“分裂”部分，我可以看到他的球队中有多少赢过比赛。我需要的是一个包含2列的csv文件，其中有玩家的赢数和“代码”(例如，Garland的代码是garlada01)。我需要将它与csv文件中已有的另一个表连接起来，并以R中相同的键连接这两个数据帧，而这个“代码”正是实现这一目标的完美

浏览 5提问于2022-08-17得票数 0

2回答

如何导航到BeautifulSoup对象中的特定标记？

、、

链接到我正在使用的url：response = requests.get(new_url)所有顶级标记(没有父

浏览 5提问于2021-04-28得票数 0

回答已采纳

1回答

如何在Python和BeautifulSoup中使用class过滤标签？

、、、、

我正在尝试用漂亮的HTML解析器从一个网站上抓取图片。我试图解析HTML并获取包含图像源的展开图像的"src“属性。当我尝试

浏览 42提问于2021-02-15得票数 0

3回答

如何使用python从网页中提取ids和类？

、、

这是我到目前为止的代码：with urllib2.urlopen("https://quora.com") as response:我是Python的新手，不知何故，我成功地获取了网页，现在如何从网页中提取I和类？

浏览 2提问于2016-10-29得票数 2

2回答

Python，Beautifullsoup -获取href链接

、、

/usr/bin/python3import requestspage = "https://mojmikolow.pl/informacje,0.html"data_entries = BeautifulSoup(page, "htm

浏览 48提问于2021-01-29得票数 1

回答已采纳

1回答

缺少HTML输出[BeautifulSoup]

、、

我正在使用Jupyter notebook上的BeautifulSoup来解析这个网站(http://www.jepoc.or.jp/hydro/index.php?_w=usData&_x=areashow3)中的超文本标记语言数据。我只需要表中的数据(标题和值)。然而，解析的soup对象似乎只显示了来自表头的<

浏览 16提问于2019-10-10得票数 0

2回答

查找字符串中的文本并打印多个结果

、、

我有一个很长的字符串结果，例如：<a href="#">bbb</a>如何在字符串中搜索'#">‘并输出最好说find '#‘并打印'>’和'<‘之间的内容提前谢谢你！

浏览 12提问于2020-05-27得票数 0

1回答

如何在python中保存来自CGI网站的图形/图像？

、、、、

在上面的链接中，我正在尝试将“每月天气历史图表”保存在python脚本中。我已经尝试了所有我能想到的使用BeautifulSoup和urrlib的方法。我所能做的就是得到下面这一点，我可以将其提取出来，但我不知道如何将该图形保存为image/HTML/PDF/任何格式。我真的不熟悉CGI，所以这里的任何指导都是非常感谢的。

浏览 1提问于2014-12-18得票数 0

1回答

用许多其他东西解析文本文件中的json对象- Python

、

我有一个html页面。如何从文本中读取所有json对象？我想实现的是从亚马逊的日常交易中获得价格的产品，这就是我现在所写的：impor

浏览 3提问于2017-10-28得票数 0

1回答

使用漂亮汤get_text()

、

我可以使用这个代码块从一个网站解析我需要的字段：soup = bs4.BeautifulSoup(response.text, "lxml")print poempoem = soup

浏览 0提问于2015-10-24得票数 3

回答已采纳

2回答

提取标记内的所有内容，但不提取标记本身

、、

我正在使用BeautifulSoup从网站抓取文本，但我只需要用于组织的<p>标记。但是，我不能使用text.findAll('p')，因为还有其他我不需要的<p>标记。我想要的文本都被包装在一个标记中(假设是body)，但是当我解析它时，它也需要包含该标记。link = requests.get('link&

浏览 6提问于2017-02-02得票数 1

1回答

BeautifulSoup误解了<area>标签

、

我使用漂亮汤从烟草文档中提取元数据，如：meta_data = soup.document.metadata<area>GEE,ED/OFFICE; N408</area> 一个空的区域标记<area></area>。带有内

浏览 2提问于2014-07-29得票数 1

回答已采纳

3回答

如何在Python中刮取由JS生成的登录令牌？

、

稍后将通过JS替换该值。>标记之后的源代码中。';我必须复制这个值并通过http请求将其发布到URL以获得请求的接受。当我通过python库发送请求时，</html>标记后的代码是不可见的。html = session_requests.get("http:/&#

浏览 1提问于2021-03-14得票数 2

回答已采纳

1回答

当使用.find方法时，BeautifulSoup找不到所有标签吗？

、

我正在尝试使用Python语言中的BeautifulSoup从中获取热门存储库的数量。代码应该查找class_ = "Box-row“的所有标签，然后打印找到的数字。在该站点上，趋势存储库的实际数量是25，但代码仅返回9。我尝试将解析器从'html.parser‘更改为'lxml’，但两者返回相同的结果。page = requests.get('https:

浏览 16提问于2019-11-11得票数 0

1回答

如何使用BeautifulSoup解析表？

、、

这是一个特定于上下文的问题，涉及如何使用BeautifulSoup解析python2.7中的html表。我想提取html表并将其放在标签标记csv中，并尝试使用BeautifulSoup。page=11&Institution=&field_op_delevery_mode_value_many_to_one[0]=100%25%20online

浏览 2提问于2013-07-23得票数 0

回答已采纳

4回答

美汤基于部分属性值的标签查找

、

我正在尝试根据属性值的一部分来识别html文档中的标签。例如，如果我有一个Beautifulsoup对象：我想要具有id属性<

浏览 0提问于2018-06-01得票数 5

3回答

如何使用BeautifulSoup刮除非HTML标记

、

我正在尝试从一个标签为<a href="https: evisa.mfa.am ">的网站中获取数据，例如，看看这个<br/>2. Airlines must provide advance passenger&

浏览 0提问于2020-04-06得票数 0

回答已采纳

点击加载更多