如何使用selenium web驱动程序抓取网站而不被阻塞

Selenium是一个用于自动化网页浏览器操作的工具，可以模拟用户在浏览器中的行为，包括点击、输入、提交表单等操作。使用Selenium进行网站抓取时，有时会遇到被网站阻塞的情况。下面是一些方法可以帮助你在使用Selenium进行网站抓取时避免被阻塞：

使用随机的User-Agent：网站通常会根据User-Agent来判断请求是否来自真实的浏览器。通过在每次请求中使用随机的User-Agent，可以减少被网站识别为机器人的概率。你可以使用Python的fake_useragent库来生成随机的User-Agent。
设置请求间隔：连续发送请求可能会引起网站的注意，因此建议设置请求间隔，模拟真实用户的操作。可以使用time.sleep()函数来添加延迟。
使用代理IP：使用代理IP可以隐藏你的真实IP地址，增加抓取的匿名性。你可以使用一些代理IP服务商提供的API来获取代理IP，并在Selenium中设置代理。
避免频繁的操作：在进行网站抓取时，尽量避免频繁的点击、滚动等操作，以免被网站检测到异常行为。
使用无头浏览器：无头浏览器是一种没有界面的浏览器，可以在后台运行，减少对系统资源的占用。使用无头浏览器可以模拟真实用户的操作，同时减少被网站检测到的概率。常见的无头浏览器有Chrome Headless和Firefox Headless。
处理验证码：有些网站为了防止机器人访问会设置验证码。你可以使用一些验证码识别的库，如Tesseract OCR，来自动识别验证码。

总结起来，使用Selenium进行网站抓取时，需要模拟真实用户的操作，避免频繁的请求和异常行为，同时使用一些技巧如随机User-Agent、请求间隔、代理IP等来减少被网站阻塞的概率。

如何捕获仅由selenium引发的错误？

、、、

我正在使用selenium进行web抓取，有时在网站上会出现意外的警报，这会破坏脚本。警报是一种错误；有时，页面没有正确加载，selenium由于服务器性能问题而找不到元素。因此，我正在考虑添加一个try/run块，这样每当selenium通过错误时，它就会被捕获，脚本就会被重新运行。但我能够捕捉到特定于selenium的错误。如何捕获仅由selenium引发的错误？

浏览 6提问于2022-01-30得票数 -1

1回答

我正在建立一个在Django的网站，将从一些网站抓取数据，这样人们就可以进入该网站，设置自定义数据过滤器，并查看抓取的数据在友好的格式。问题是requests和beautiful soup模块不足以满足抓取目的，因为我还需要一些自动化操作(加载javascript或单击按钮)。由于Selenium要求下载webdriver并将其放入路径中，是否可以在web应用程序中使用它？比如在某个地方托管webdriver？我也对Selenium以外的解决方案持开放态度，如果有的话。

浏览 3提问于2018-07-01得票数 1

1回答

抓取Lazada数据

、

我使用Selenium从Lazada网站获取商品名称、价格、评论等数据。但是，它会在第一次抓取后阻止我。我的问题是，有没有办法解决这个问题？你们能给出一些详细的解决方案吗？谢谢你

浏览 60提问于2021-03-12得票数 0

2回答

如何使用selenium web驱动程序托管由web抓取支持的后端服务？

、、、、

因此，我正在开发一个项目来抓取一个网站并将数据传递给用户，但是我正在使用带有python/flask的selenium/selenium web驱动程序。我本来打算用漂亮的汤，但我抓取的网站需要在页面上进行一些交互。我有一切工作与刮刀，我只是试图找出一种方法，使这项工作，如果我想要托管在一个网站上使用的服务，如heroku。目前Selenium正在打开一个chrome浏览器，并以这种方式浏览页面。有没有一种聪明的方法可以不用打开浏览器就可以做到这一点，并且在使用某些服务托管时可以无缝工作？

浏览 20提问于2020-05-03得票数 1

1回答

Python Web抓取:通过加载页面抓取页面

、、

我正在建立一个网络抓取项目使用python与美丽的汤和请求模块，问题是我想要抓取的网站有一个加载页面(完全不同于主页)，然后它将我重定向到主页。我怎么能等到页面加载完成，然后从主页上抓取数据呢？我知道Selenium可以处理这些类型的网站，但网站必须使用web驱动程序启动，这是我不希望在我的项目中使用的原因，这就是为什么我使用Beautiful Soup和requests模块。到目前为止，我的代码如下。 from bs4 import BeautifulSoup import requests import time source = requests.get(url).text prin

浏览 15提问于2020-10-25得票数 0

2回答

selenium.common.exceptions.WebDriverException:消息:服务chromedriver意外退出

、、、

我知道已经有人问过非常类似的问题，但即使经过几个小时的谷歌搜索、研究和比较，我也找不出问题所在。我的最终目标是使用selenium用Python进行一些web抓取，但是现在我甚至不能启动webdriver。这是我到目前为止得到的代码和错误消息： $ python Python 2.7.6 (default, Oct 26 2016, 20:30:19) [GCC 4.8.4] on linux2 Type "help", "copyright", "credits" or "license" for more informati

浏览 20提问于2017-06-27得票数 4

2回答

在没有Selenium Webdriver的情况下抓取焦点

、

我正在使用Selenium自动化一个网站。首先，我用C#打开主网站。然后，我手动单击以从主站点打开新窗口。现在，我想要抓取这些新窗口的数据。这不是问题。问题在于，Selenium似乎需要一个窗口来聚焦来刮掉它。在抓取之前，我目前使用SwitchTo方法。当您切换时，新窗口会弹出到前面，并从其他窗口窃取焦点。有没有一种方法可以在不聚焦的情况下抓取窗口？

浏览 0提问于2017-12-04得票数 1

1回答

如何背靠背运行多个Selenium测试

、

我正在尝试使用Selenium和Python执行动态web抓取。我正在尝试抓取的网站有一个输入，大约600个位置可以选择。每个位置都有不同的设施。我想要抓取设施的名称以及每个位置的地址。我有一个excel文件中的位置列表。我使用Pandas导入这些位置，然后尝试执行for循环，遍历每个位置，在输入中输入位置，然后抓取下面输出的设施。但是，我的for循环并没有像预期的那样工作，所以每次我运行脚本时，Selenium驱动程序都会打开，并且我会按照第一个位置的预期来清理设施。但在那之后什么也没有发生。我的目标是让脚本继续运行，要么打开新的Selenium浏览器，要么在输入中输入一个新位置，以抓

浏览 16提问于2019-07-10得票数 1

4回答

Selenium Webdriver的替代方案

、、

我使用C#和Python的Selenium Webdriver从网站获取数据元素，但web抓取的速度非常慢。抓取35000个数据表花了我大约1.5天的时间。使用Selenium Webdriver，我可以执行Javascript来获取Java元素。有没有一些库可以不需要像Webdriver这样的东西来在网页上执行Javascript来检索元素，并且能够点击元素？或者有没有比硒更快的替代品？

浏览 5提问于2015-04-16得票数 13

1回答

当使用Selenium从网站表格中抓取项目时会发生什么？

、

我正在使用Selenium从一个网站上抓取表格数据。我发现我可以使用xcode轻松地遍历各行以获得所需的信息。selenium是不是每次我通过xcode搜索一个对象的文本时都会访问网站？还是先下载页面，然后脱机搜索对象？如果前者是真的，有没有办法下载html并使用Selenium进行离线迭代？

浏览 22提问于2018-09-10得票数 0

回答已采纳

2回答

通过Python中的web抓取工具登录到网站

、、、、

我正在使用Python中的Selenium进行web抓取项目。我想通过输入登录细节登录，然后单击提交按钮。我可以输入用户名和密码。但是我不能用鼠标点击提交按钮。 “提交”按钮的类型为<input>。 <input type="image" src="/images/buttons/loginnow.gif" tabindex="3"> 下面是我试图单击鼠标的python代码。 submitButton=driver.find_element_by_xpath("//input[@type='image&

浏览 3提问于2011-11-29得票数 7

回答已采纳

1回答

便携式硒

、、、

在用python编写的所有项目中，我使用selenium来抓取网站，我只能从自己的机器上运行脚本，如果我将脚本发送给客户端，如果他需要每天运行该脚本，它很可能无法工作。是否有一种方法可以使用selenium，以便脚本可以移植并能够在任何平台上运行，这样我就可以将它发送到我的客户端，并确信它能够工作。我在网上找不到任何对我有帮助的东西。如果selenium不能做到这一点，那么是否可以使用其他python模块呢？到目前为止，对于使用javascript的页面，我使用selenium进行抓取。为了便于携带，我该换别的东西吗？请告诉我。如果有人能给我指明正确的方向，我将非常感激。

浏览 0提问于2018-03-28得票数 1

1回答

Python Scrapy - Selenium -请求下一页

、、

我试图使一个网络爬虫，去一个链接，并等待Javascript内容加载。然后，在进入下一页之前，它应该获得所有指向列出的文章的链接。问题是它总是从第一个url ("")抓取，而不是遵循我给它的url。为什么下面的代码不能从我在reqeusts中传递的新urls中抓取？我没主意了. import scrapy from scrapy.http.request import Request from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver

浏览 2提问于2017-06-14得票数 1

1回答

我如何知道要在我的VPS上安装哪个Chrome二进制程序？

、、

我正在尝试从我的VPS中做一些web抓取，我已经安装了selenium和chromedriver，但是现在看来我需要Chrome二进制文件才能使一切按预期工作。我在Linux专用服务器上，如何安装哪个二进制文件才能使我的抓取工作正常进行？

浏览 9提问于2022-01-08得票数 0

1回答

将Selenium/Webdriver/HtmlUnit限制到某个域

、、

在使用selenium/webdriver进行web抓取时，我意识到目标站点正在运行google分析脚本。有没有办法限制selenium/webdriver/htmlunit来避免某些urls/域？谢谢,

浏览 2提问于2011-06-24得票数 6

1回答

如何在Python Selenuim中将日语响应页面翻译成英语

、、

如何在Python Selenium中将日语响应页翻译成英文。由于我需要抓取一个日语网站，我甚至不能从该网站提取一个文本，因为所有的都是日语。

浏览 12提问于2017-02-21得票数 1

1回答

抓取文本呈现到svg图形(以阻止刮刀)-如何？

、、、、

因此，这一次，我在我的抓取逃避，我遇到了一个新的敌人-一个网站，通过“转换”的价格数据，每个人都想刮成SVG图像来破坏刮刀。一个简单的问题-什么是“首选”工具或方法刮这样的网站连续？我想过用Selenium下载整个页面的屏幕截图(因为该站点也有cloudflare刮伤检测)，并使用tesseract对其进行OCR‘，但仅下载一页就需要大约7秒(而且我有180个页面需要抓取)，所以虽然这并不完全不可行，但可以这么说，这是低于预期的。我的问题是，我应该考虑的一般方法、技术或工具是什么？有没有一种方法可以让SVG直接出现在网站上，而不需要下载或者制作截图呢？或者我该看什么？作为参考，我试图刮的是

浏览 3提问于2022-04-12得票数 1

2回答

Selenium Python页面更新后返回为空

、、、

我正在使用Selenium Python和BeautifulSoup来抓取数据。我需要的网站的html后，‘生活’按钮被点击。我正在获取要单击的按钮，但是新的HTML没有返回给我。我认为在按钮单击后，html会很快返回，所以我休眠了。但即便如此，它也只返回了类的空div 'Collapsible__contentInner‘。 from bs4 import BeautifulSoup from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.s

浏览 0提问于2020-08-24得票数 0

3回答

与多个python程序共享数据

、、

我是从多个网站抓取数据。为此，我使用selenium和PhantomJs编写了多个web刮刀。那些刮刀会返回值。我的问题是:是否有一种方法可以将这些值提供给单个python程序，以便实时地对这些数据进行排序。我想要做的不是保存这些数据来分析它，我想把它发送到一个程序中去进行实时分析。我已经尝试过了，：我甚至不知道从哪里开始

浏览 7提问于2016-08-03得票数 0

回答已采纳

1回答

有没有任何快速的方法来刮一个有无限滚动的网站？

、

我正在尝试使用python来抓取一个用无限滚动实现的网站。实际上，网络就是pinterest。我知道如何使用selenium来抓取具有无限滚动的web。但是，WebDriver基本上模仿了访问web的过程，而且速度慢得多，比使用BeautifulSoup和urllib进行抓取要慢很多。你知道有什么时间有效的方法来刮一个无限滚动的网页吗？谢谢。

浏览 0提问于2014-12-29得票数 0

回答已采纳

2回答

Selenium.PhantomJS是无效的命名空间

、、、、

我真的在尽我最大的努力去寻找一种方法去网络刮一个网站，使用javascript来加载页面，这样我就可以抓取，比如说我的播放列表。我没有运气的铬驱动器或幻影。请看下面，看看你能不能帮我解决错误。 using OpenQA.Selenium; //The type or namespace 'PhantomJS' does not exist in the namespace 'OpenQASelenium' using OpenQA.Selenium.PhantomJS; using System; using System.Collections.Generic

浏览 0提问于2018-09-21得票数 7

回答已采纳

2回答

Python:在不打开浏览器的情况下刮除JavaScript表并将结果保存为csv文件

、、

Python:抓取web表并将数据保存到CSV文件下面的代码工作得很好，但是我如何在不打开浏览器的情况下实现相同的目标？即在地下进行加工。守则如下； import selenium.webdriver as webdriver import contextlib import csv import json @contextlib.contextmanager def quitting(browser): yield browser browser.close() browser.quit() with quitting(webdriver.Chrome()) a

浏览 7提问于2017-06-16得票数 0

回答已采纳

1回答

如何在Go中刮动网站？

使用NodeJS，我可以使用PhantomJS来帮助我抓取动态网站，使用PhantomJS，我可以使用Selenium来完成这项工作。在GoLang怎么样？

浏览 2提问于2017-07-05得票数 1

9回答

Selenium给"selenium.common.exceptions.WebDriverException:消息:未知错误:在Mac上找不到Chrome二进制文件

、、、

试图让selenium使用Python3进行web抓取： from selenium import webdriver chrome_path = r"/Library/Frameworks/Python.framework/Versions/3.6/bin/chromedriver" driver = webdriver.Chrome(chrome_path) 我收到以下错误消息： selenium.common.exceptions.WebDriverException:消息:未知错误:找不到Chrome二进制文件也有一个类似的问题，但令我困惑的是Chrome已经

浏览 16提问于2017-09-03得票数 37

回答已采纳

3回答

Python硒多处理

、、、、

我用python和selenium结合编写了一个脚本，从它的登陆页面中抓取不同帖子的链接，并通过跟踪指向其内部页面的url最终获得每个帖子的标题。虽然我在这里分析的内容是静态的，但我使用selenium来查看它在多处理中的工作方式。然而，我的意图是使用多处理进行抓取。到目前为止，我知道selenium不支持多处理，但我似乎错了。我的问题:当使用多进程运行时，如何减少使用selenium的执行时间？ This is my try (it's a working one) import requests from urllib.parse import urljoin from mul

浏览 2提问于2018-11-26得票数 31

回答已采纳

1回答

如何使用Python使用Selenium在跨内的标签中获取文本？

、、、、

我想在网站上使用Selenium (与Python一起使用)的代码块(用于web抓取)如下所示- <div class="exp_date"> <span class="uppr_sec"> <i class="exp_clndr"></i> <label> 04 Jan 2021 09:30 AM - 04 Jan 2021 10:30 AM </label> </span> <br> <div cl

浏览 1提问于2021-01-04得票数 1

回答已采纳

1回答

如何抓取角形JS网络应用程序？

、、、、

我正在尝试抓取一个网页应用程序，它的第一个障碍是登录，是建立在角度js。我使用scrapy和selenium来抓取网站，但是登录有一个问题。我有一个帖子，我在那里寻求帮助，，但我没有得到任何帮助。问题是，当我使用selenium(如下所示)读取body元素的innerHTML时，它给了我空白的响应。为什么会这样呢？是因为HTTPS还是因为其他权限问题？此外，如果有人可以帮助我如何使用刮伤和硒，同时登录和曲奇废网站。那会很有帮助的。 def crawl_url(url, run_headless=True): if run_headless: display = Dis

浏览 0提问于2015-06-23得票数 1

回答已采纳

2回答

在使用python的selenium中使用xpath获取innerHTML

、、、、

我正在尝试学习web抓取，尽管我检查了文档中的示例和堆栈中的一些问题，但我无法使我的代码工作。我想要抓取的网站有工作列表，但它的结构上没有模式或固定的类，几乎每个元素都有自己的id和单独的类。当我使用检查器从锚标记中查找innerHTML的xPath时，我得到的是：使用Firefox： /html/body/div[1]/div/main/div[3]/div/div/section/ul/li[1]/article/header/div/div[1]/h2/a 使用Brave Browser： //*[@id="16542952"]/section/div/header/

浏览 7提问于2020-05-19得票数 0

1回答

如何在python语言中使用selenium和chromedriver抓取此页面？

我正在尝试使用selenium和chromedriver从网站“”中抓取数据。当我运行代码时，chromedriver成功地输入了url，但无法加载页面，显示了一个空白页面。我尝试将目标网站切换到google.com，但抓取成功。我的结论是目标网站服务器检测到selenium并拒绝发送回数据。那么如何在Python语言中使用selenium和chromedriver从网站抓取数据呢？我是一个Python初学者，感谢您的帮助。下面是我的简单代码： from selenium import webdriver my_driver_path = r"C:\python chrome driv

浏览 0提问于2020-05-29得票数 0

1回答

无需打开浏览器即可抓取网站数据(python)

、

我想通过网页中的搜索按钮迭代地搜索30+项目，并抓取相关数据。我的搜索项目存储在一个列表中: vol_list from selenium import webdriver from selenium.webdriver.common.keys import Keys driver = webdriver.Chrome("driver path") driver.get("web url") for item in vol_list : mc_search_box = driver.find_element_by_name("search_str&#

浏览 5提问于2017-02-25得票数 0

2回答

是否可以使用Selenium WebDriver来驱动PhantomJS？

、、、

我正在浏览Selenium WebDriver的文档，例如，它可以驱动Chrome。我在想，“驾驶”PhantomJS不是更有效率吗？有没有一种方法可以在PhantomJS中使用Selenium？我的预期用途是web抓取:我抓取的网站加载了AJAX和许多可爱的JavaScript，我认为这个设置可以很好地替代我目前正在使用的Scrapy Python框架。

浏览 4提问于2012-06-27得票数 35

回答已采纳

1回答

selenium或其他web刮刀工具对于从chrome到python脚本的数据刮取是必需的吗？

、、

所以我想刮一个网站的数据。我在python脚本中使用selenium来抓取数据。但是我注意到，在Google的网络部分，Chrome可以记录XmlHttpRequest来查找网站的json/xml文件。因此，我想知道我能否在python脚本中直接使用这些数据，因为selenium很重，需要更多的带宽。selenium或其他web刮刀工具是否应该用作与浏览器通信的媒介？如果没有，请提供一些有关只使用chrome本身为我的python文件使用的刮取数据的信息。

浏览 0提问于2019-06-09得票数 0

1回答

爬行有限制的网页

我有一个关于从网页抓取数据的问题。有些网站对请求有限制，在这种情况下我该如何抓取？

浏览 0提问于2017-07-27得票数 2

1回答

如何在Selenium中将PhantomJSOptions设置为proxy类型？

、

将Selenium和web驱动程序作为web抓取项目的一部分来驱动phantomjs。在PhantomJS上的Windows“已知问题”中，建议将代理类型设置为“无”，以提高网络性能。我尝试了以下几种方法： PhantomJSOptions options = new PhantomJSOptions(); options.AddAdditionalCapability("proxy", "{proxyType:none}"); 但是，这会将代理设置为字符串，并且我认为我需要一个json对象。有没有人能告诉我怎么做才对？

浏览 0提问于2013-06-06得票数 0

回答已采纳

2回答

如何旋转Selenium webrowser IP地址

、、、、

我有一个Python脚本，每30秒访问一个网站，每次我都需要一个不同的IP地址。什么是最好的/大多数时候有效的解决方案？在网上抓取免费代理？您知道从多个来源收集代理的python脚本吗？每次使用Tor浏览器具有不同的IP (我在aws ec2实例上使用selenium，您知道如何在Ubuntu服务器上使用Tor浏览器吗？) 其他方法？

浏览 10提问于2019-12-19得票数 18

2回答

如何使用Python Selenium仅抓取一个特定的图像？

、、、、

我想从网站上抓取一张图片，并将其存储在指定的文件夹中，但所有的教程似乎都只是教你如何抓取多张图片。例如，我想要从上立即看到这个小狗图像，并将其保存在我的桌面上。我该怎么继续呢？到目前为止，我只想出了以下代码： from selenium import webdriver from selenium.webdriver.common.keys import Keys import time PATH = "C:\Coding\Codes\Python\edgedriver\msedgedriver.exe" driver = webdriver.Edge(PATH) driv

浏览 43提问于2021-11-08得票数 2

1回答

Selenium Ruby Webdriver无法运行Chrome浏览器

、、、

我正在尝试为chrome启动一个远程会话，并且一直得到相同的问题。脚本并不是那么复杂。我想知道是不是某个开关设置得不正确。下面是我正在使用的代码片段，以及我返回的错误(或其中的一部分，非常长)。我看到浏览器尝试打开，然后立即关闭。 require "selenium-webdriver" require "test/unit" class PageLinks < Test::Unit::TestCase def setup @caps = Selenium::WebDriver::Remote::Capabilities.chrome

浏览 0提问于2012-04-28得票数 1

1回答

在通过Python使用Selenium进行搜索之后，无法找到一种方法来刮取结果表

、、、、

几个月来，我一直在使用BeautifulSoup、Selenium和Scrapy进行网络抓取，主要是为了研究目的。起起落落之后，我总是设法实现我的网络抓取目标(其中很多都是由于这个网站)，直到我面对这个网站的'‘，页面使用javascript，需要渲染才能得到结果。使用selenium，我成功地单击了“继续”、“选择EEA-Brach类型”并单击“搜索”，但是在获得结果的页面源代码之后，我只能得到脚本代码，而不是像往常一样呈现的html/css。有办法刮这个网站吗？ driver.get('https://euclid.eba.europa.eu/register/cir/se

浏览 0提问于2019-08-28得票数 1

回答已采纳

1回答

在selenium网站上显示错误消息时，如何打印消息

、、、、

嗨，我正在尝试使用selenium抓取一个网站后，该网站阻止了我的ip抓取，并弹出一条消息出现。我想要做的是，每当弹出消息出现时，它都会在我的终端上显示一个警告，我的代码如下所示，以获得结果 blo = driver.find_element_by_xpath('/html/body/div[2]/div/div/div[1]/h3') if blo: print('ip blocked') else: print('eroor') 但是它不工作，我只是得到一个空白屏幕，我如何解决这个问题元素的HTML： <h3 cla

浏览 3提问于2020-01-08得票数 0

3回答

用于web抓取的Selenium与BeautifulSoup

、、、

我正在使用Python从一个网站上抓取内容。首先，我在Python上使用了BeautifulSoup和Mechanize，但我看到网站上有一个通过JavaScript创建内容的按钮，所以我决定使用Selenium。既然我可以通过像driver.find_element_by_xpath这样的方法使用Selenium查找元素并获取它们的内容，那么当我可以使用Selenium做任何事情时，还有什么理由使用BeautifulSoup呢？在本例中，我需要使用Selenium来单击JavaScript按钮，所以使用Selenium进行解析更好，还是应该同时使用Selenium和Beautiful S

浏览 1提问于2013-07-03得票数 53

回答已采纳

2回答

TypeError：'str‘对象不能用driver.current_url()调用(Python3.6)(Selenium)

、、、

我的代码： import selenium from selenium import webdriver as web url = 'https://www.wta.org/go-outside/hikes/hike_search? sort=&rating=0&mileage:float:list=0.0&mileage:float:list=25.0&title=&region=all&searchabletext=&filter=Search&subregion=all&b_start:int=0&

浏览 0提问于2018-08-22得票数 1

回答已采纳

1回答

Selenium :尝试从归档链接中获取原始url

、、、、

我正在做一个项目，试图从档案网站上抓取文章。例如，下面是一个存档url和原始url。我有档案网址。我想用Selenium提取原始的url。 Arhive url：https://archive.is/xXAoL 原始网址：https://beforeitsnews.com/eu/2021/08/breaking-germany-halts-all-covid-19-vaccines-says-they-are-unsafe-and-no-longer-recommended-2676130.html?fbclid=IwAR3JPcxNHlZ5eQHLyO2teh6_xcrerisBrCNele

浏览 4提问于2022-01-24得票数 0

回答已采纳

1回答

Selenium中的Javascript启动网页不起作用

、

尝试使用使用selenium web的Javascript启动网页它不会推出网站是有原因的。尝试使用使用selenium web的Javascript启动网页它不会推出网站是有原因的。我确保包含了调用Javascript所需的所有包。 package javascriptexecution; import java.util.concurrent.TimeUnit; import org.junit.After; import org.junit.Before; import org.junit.Test; import org.openqa.selenium.By; impor

浏览 0提问于2019-08-15得票数 1

2回答

使用selenium获取数据

、

我开发了一个web应用程序，它使用RangeNode.js/Express.js和MySQL开发。我的应用程序有一些页面，在从另一个web应用程序example: https://www.example.com获取数据后显示数据。由于另一个应用程序没有从哪里获取数据的API，所以在Python的帮助下，我使用了web 抓取，而则从站点中抓取数据。我用Node.js调用我的Python程序。我想问的是，这是一个机器人之间的连接，它发送请求到目标站点是否安全？selenium自动浏览器是否向站点发送加密连接？或者，我是否必须连接到代理来保护我的连接。我不想泄露我服务器的IP。任何帮助都将不胜感

浏览 4提问于2021-05-31得票数 1

回答已采纳

1回答

无法使用python定位元素: //input[@name="session[username_or_email]"]

、、

当涉及到selenium和web抓取作为一个整体时，我是一个初学者，今天我试图学习一个关于selenium的教程，他们在其中使用以下命令： from selenium import webdriver driver = webdriver.Firefox() driver.get("https://twitter.com/home") username = driver.find_element_by_xpath('//input[@name="session[username_or_email]"]') 要在twitter登录页面的html中

浏览 2提问于2021-01-26得票数 0

回答已采纳

1回答

带有刮刀的Web爬行器，使用木偶和刮除器

、、、、

请注意，我是一个新手，当涉及到网络技术。我必须抓取和刮相当多的网站，这些网站是由React / javascript / html技术组合而成的。这些网站在所有地方都有大约。10万至50万页。我计划使用Selenium和Scrapy来完成爬行和抓取。单是Scrapy就不能对页面进行抓取，使用Selenium来抓取常规的javascript/html是非常耗时的。我想知道是否有任何方法我的爬虫/刮刀可以理解反应页面与Javascript/html页面的区别。等待回应。

浏览 3提问于2019-12-04得票数 0

回答已采纳

1回答

为什么这个selenium在结束之前不点击“下一页”？

、、、、

我正在为网站Upwork写一个抓取代码，需要点击每个页面的工作列表。这是我的python代码，我使用selenium对其进行网络爬行。 from bs4 import BeautifulSoup import requests from os.path import basename from selenium import webdriver import time from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.support.ui import WebDri

浏览 0提问于2017-07-02得票数 0

2回答

Selenium Webdriver / Beautifulsoup +Webdriver+ Error 416

、、、、

我正在使用在Python中使用selenium进行web抓取。我想浏览超过10k页的单一网站使用这个刮刮。问题正在使用这个代理，我只能一次性发送请求。当我在同一个链接或这个站点的另一个链接上发送另一个请求时，我得到416个错误(有点像使用防火墙的IP块)，时间为1-2小时。注意：我可以用这个代码来抓取所有的普通站点，但是这个站点有某种安全性，这阻止了我的抓取。这是密码。 profile = webdriver.FirefoxProfile() profile.set_preference("network.proxy.type", 1) profile.set_pref

浏览 2提问于2015-09-23得票数 10

回答已采纳

1回答

Google Cloud VM实例的Selenium替代方案？

、、、、

有没有不需要web驱动程序或浏览器就能运行的Selenium的替代品？我最近将我的代码移到了Google Cloud VM实例上，当我运行它时，出现了多个错误。我已经试了几个小时了，但就是不行( PhantomJS、Chrome和GeckoDriver都不行--我试着重新下载浏览器，编辑sources.list文件e.c.t.)。我在web上抓取的页面使用JavaScript加载数字，我最初选择Selenium。不过，其他的一切都很完美！

浏览 10提问于2020-05-25得票数 0

1回答

在搜索栏中使用send_keys (Python)后，如何解析网站搜索结果？

、、、、

我的问题与这篇文章有关：我能够执行对前一个问题的回答，但无法从Chrome通过book循环导航到的网站上刮取数据。我只找到了在我的代码中显示如何从d中刮取数据的答案，而不是在使用了send_keys之后从搜索结果中找到的答案。我试图访问该元素，但无法访问，我想在搜索book之后从结果网站中抓取数据，然后进入下一轮循环。我试过： from selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.webdriver.common.by import By d = webdr

浏览 3提问于2021-01-05得票数 1

回答已采纳