Python Web抓取|如何通过Beautiful Soup和selenium选择页码作为范围，从多个urls抓取数据？

、、、

from selenium import webdriverfrom bs4 import BeautifulSoup as Soup bs = Soup

浏览 54提问于2021-09-21得票数 0

回答已采纳

1回答

如何从Oddsportal获取URL？

、

如何从这个特定的链接获取所有的URL：单击链接后：当我去检查元素时，我可以看到链接可以被刮掉，但我对它非常陌生。请帮帮忙

浏览 1提问于2021-07-01得票数 0

1回答

我刚用Python开始了几个web抓取项目。我目前使用lxml，Beautiful Soup和requests模块来抓取网页。我需要知道是否有任何方法可以只从网站获得我们需要的数据，而不是加载整个页面。requests模块执行GET请求并接收整个，bs4，lxml只过滤数据。我尝试过Selenium，但这也打开了浏览器，这不太适合工业项目。我对scrapy和splash一无所知。

浏览 28提问于2021-11-13得票数 0

回答已采纳

1回答

基于动态内容和隐藏数据表的Selenium Web抓取

、、、、

我正在使用Selenium和Beautiful Soup在Python中对动态内容进行web抓取。问题是，即使使用以下代码，也无法将定价数据表解析为Python：sel_soup=BeautifulSoup(html, 'html.parser')

浏览 15提问于2018-02-14得票数 2

9回答

BeautifulSoup和Scrapy crawler有什么区别？

、、、

我想做一个网站，显示亚马逊和易趣产品价格的比较。其中哪一个会工作得更好?为什么？我对BeautifulSoup比较熟悉，但对Scrapy crawler不太熟悉。

浏览 323提问于2013-10-30得票数 146

回答已采纳

3回答

“汤”和“美汤”中的“汤”是什么意思？

、

“汤”和“美汤”中的“汤”是什么意思，为什么它被称为“汤”？

浏览 1提问于2014-05-19得票数 10

4回答

检索广告URL

我想要做的可能是编写一个脚本来持续刷新页面并抓取广告URL。有什么建议吗？

浏览 2提问于2012-11-05得票数 0

3回答

为什么BeautifulSoup不能在Google上获得所有html呢？

、

当在Google上搜索某物时，所有的链接和标题都会放在h3标签中。然而，如果我尝试使用“美丽汤”，则不会出现任何h3标记，而且似乎丢失了许多标记。我不认为这是一个JavaScript问题。q=" + input print (item) 编辑:

浏览 11提问于2020-11-08得票数 0

回答已采纳

2回答

将数据从Tripadvisor导入Google电子表格或Excel

、、、

是否可以获取此数据的列表：阿姆斯特丹所有餐馆的名单。如果可能的话，还有详细的地址等等。非常感谢！

浏览 1提问于2020-09-17得票数 0

1回答

Python Web抓取:通过加载页面抓取页面

、、

我正在建立一个网络抓取项目使用python与美丽的汤和请求模块，问题是我想要抓取的网站有一个加载页面(完全不同于主页)，然后它将我重定向到主页。我怎么能等到页面加载完成，然后从主页上抓取数据呢？我知道Selenium可以处理这些类型的网站，但网站必须使用web驱动程序启动，这是我不希望在我的项目中使用的原因，这就是为什么我使用Beautiful Soup和requests模块。

浏览 15提问于2020-10-25得票数 0

1回答

Selenium Python的IE webdriver加载网页并进入停顿状态

、、、

大家好，Python专家们，我已经使用了Beautiful Soup和REquests来为我的项目从静态web上抓取数据。但对于动态内容，我无法做到这一点。我已经为此安装了selenium。请帮助:)from selenium.webdriver.common.keys import Keys driver = webdriver.Ie

浏览 41提问于2020-05-26得票数 1

回答已采纳

3回答

Python Web抓取-必需库及其实现方法

我想要使用Python进行web抓取，我需要它，因为我想导入一些数据库，我们如何在Python中做到这一点。我们需要什么样的库？

浏览 2提问于2016-02-11得票数 0

2回答

原始HTML与python中的DOM抓取使用机械化和美观的汤

、、、

我正在尝试写一个程序，作为一个例子，它将刮掉这个网页的最高价格： from urllib import urlopen print soup 但是，原始HTML不包含价格。浏览器做的事情(在这里澄清可能对我也有帮助)...and在构造DOM树的同时从其他地方检索价格。有人引导我相信mechanize会像我的浏览器一样工作，并返回DOM树，我也相信这就是我在查看页面时所看到的，例如，Chro

浏览 3提问于2012-03-04得票数 3

回答已采纳

5回答

如何从其他网站获取数据？

、、、

我想创建一个网站，从其他网站提取信息，并将它们打印到我的网站上，我正在进行研究，所以我想听取一些意见，这个项目的最佳解决方案是什么？我听说Python使用解析器可以做到这一点，我只是想知道我应该走哪条路，应该使用哪种语言？

浏览 1提问于2013-06-14得票数 4

1回答

使用Selenium & Beautifulsoup从python中的LinkedIn帖子中拉出评论计数

、、、

我正在开发一个python脚本，它使用Selenium & BeautifulSoup通过web抓取从我个人的LinkedIn配置文件中提取性能数据。我可以通过Chrome成功地访问我的个人资料，并提取一些数据，但评论似乎很棘手。这是我到目前为止所知道的： postComments = [] #beautiful soup instanc

浏览 11提问于2021-09-22得票数 0

1回答

如何在Python中使用Selenium和BeautifulSoup4抓取多个URL

、、、

对于如何用Selenium、BS4和UserAgent抓取多个URL，我一直在尝试一些不同的解决方案，到目前为止，我已经能够抓取1个URL来提取我想要的内容。只是当涉及到1+地址时，我遇到了麻烦。如果您将urls参数更改为url，取消url变量的注释，去掉for url in urls并删除for content in sel_soup循环的缩进，您就会明白我的意思。我想创建一个循环来抓取，开始时，只有2个网页，当它

浏览 16提问于2020-05-17得票数 0

3回答

“美丽的汤”查找()并不能找到类的所有结果

、、、

import re html = urlopen(spotify)print(main) 谢谢你的帮助

浏览 6提问于2019-10-05得票数 1

回答已采纳

2回答

如何从存储在列表中的链接中提取信息？

、、

我想要进入这个列表，并在这个列表中的链接后面获得特定的信息(名称，地址，电话，来自某个公司的邮件)： ['https://allianz-entwicklung-klima.de/kompensationspartner/aera-group/', 'https://allianz-entwicklung-klima.de/kompensationspartner/bischoff-ditze-

浏览 15提问于2021-09-15得票数 0

回答已采纳

1回答

如何抓取和提取链接到n级，并再次抓取数据并将其映射到python中的输出？

、、

我正在学习python中的网络爬行和抓取。我想要抓取数据，在一个网站上有链接，而在这些链接里面有更多的链接。所以我想抓取数据直到预定义的级别n。/")soup = BeautifulSoup(driver.page_source,"lxml")links=[] forurl in soup.find

浏览 40提问于2019-12-17得票数 0

2回答