如何在selenium中使用proxy来避免抓取数据时的IP限制？

文章/答案/技术大牛

发布

1回答

selenium、web-scraping、proxy

当我们在抓取scrapy时使用用户代理或代理池时，对于selenium应该使用什么工具？并且还想知道如何使用。有人能帮我解决这个问题吗？

浏览 30提问于2020-07-17得票数 0

回答已采纳

14回答

在Python中使用代理运行Selenium Webdriver

python、selenium、proxy、selenium-webdriver、selenium-ide

我正在尝试用Python运行Selenium Webdriver脚本来执行一些基本任务。当通过Selenium IDE接口运行机器人时，我可以让它完美地工作(即:当简单地让GUI重复我的操作时)。但是，当我将代码导出为Python脚本并尝试从命令行执行它时，Firefox浏览器将打开，但永远无法访问起始URL (命令行返回错误，程序停止)。这发生在我身上，不管我试图访问什么网站等。出于演示的目的，我在这里包含了一个非常基本的代码。我认为我没有正确地包含代码的</

浏览 4提问于2013-06-13得票数 103

1回答

无法通过selenium* python打开网页*

python、selenium、selenium-webdriver、web-scraping、automation

我是selenium python的新手，我正在尝试从一个网站上抓取数据。下面是代码，其中我已经采取了所有必要的预防措施，以避免被阻止。from random import randrangefrom selenium.webdriver.chrome.options import(): proxy = generate_ip_address()

浏览 109提问于2021-07-17得票数 0

3回答

使用Selenium中的javascript禁用Google分析

selenium、google-analytics、selenium-webdriver

我正在使用selenium测试一个生产站点。测试活度与分析方法紧密相连。页面加载后，我可以通过Selenium禁用使用JavaScript的分析吗？我知道我可以通过Selenium执行JS。

浏览 6提问于2013-12-24得票数 4

回答已采纳

1回答

如何使用scrapy在代理(2层)上进行代理？

python、proxy、scrapy、http-proxy

如何使用实现proxy over proxy (2层)？我假设这里是http/https代理。我为什么要这样做？这样做的目的是隐藏我的ip地址。你可以认为proxy1是非常可靠的，但

浏览 1提问于2016-05-14得票数 0

1回答

为什么Facebook的帖子抓取变得非常慢，或者在几百篇帖子被抓取后停止？

selenium、facebook、web-scraping、beautifulsoup、rate-limiting

我试图用Selenium和BeautifulSoup抓取Facebook品牌社区页面上从2016年开始的所有社区帖子，比如this。我想将这些数据用于一个研究项目，我打算取消识别这些数据，并随后删除任何可识别的数据。在抓取300-500个帖子后，其余的帖子加载速度非常慢，有时甚至不加载。这可能是因为Facebook为个人用户设置的数据速率限制。我想知道我怎样才能克服这个问题。当我达到这样

浏览 27提问于2021-09-13得票数 0

2回答

我想在不使用vpn或代理的情况下更改ip地址

python、proxy、ip-address、vpn

我抓取了一些页面，这些页面检查我的IP是否是vpn或代理(假IP)如果发现是假的站点正在阻止我的请求请看是否有方法可以每x次使用真实IP更改我的IP而无需使用vpn或代理或重启路由器注:我正在使用Python

浏览 26提问于2021-11-16得票数 0

2回答

在firefox webdriver选项中排除开关

python、selenium、selenium-firefoxdriver

通过使用Selenium和python，我可以使用Chrome webdriver来实现以下功能：driver = webdriver.Chrome(options = options) 但是我找不到Firefox的webdriver选项的类似属性。

浏览 34提问于2019-07-20得票数 15

1回答

使用Ajax加载的表单登录(scrapy)：selenium* vs scrapy-splash*

python、selenium、web-scraping、scrapy、scrapy-splash

要抓取我想要的网页，我需要登录。要访问表单中的日志，我必须单击一个按钮。该按钮发出一个AJAX请求，该请求显示表单。我已经看到，我可以使用与似乎是一个更好<

浏览 8提问于2017-12-18得票数 0

1回答

如何将默认的代理设置配置为python中selenium的Firefox (geckodriver)上的“自动检测代理设置”？

python、selenium、firefox、proxy

当涉及到用selenium进行web抓取时，我是个初学者，使用python比较新，但是我一直在尝试通过FireFox访问bing搜索上的酒店列表，而且我一直在获取from

浏览 18提问于2022-05-26得票数 0

1回答

从代理ips列表中选择最佳代理ip的算法

algorithm、data-structures

我使用代理ips列表来抓取它们，比如ip1, ip2, ..., ip10。每当我从一个站点(比如site5 )抓取任何页面时，我都会调用一个函数getProxyFor(site5)，该函数为我提供了从site5请求页面时应该使用的代理ip。所以最基本的问题是从每个都有几个属性的项列表中，我希望通过查询一个或多个属性来选择一

浏览 1提问于2014-09-03得票数 0

2回答

实现Selenium以使用更改的身份验证代理

python、python-3.x、selenium、selenium-webdriver、selenium-chromedriver

我正在尝试让selenium使用一个在某一时刻会改变的代理。options) 所以我导入了seleniumwire，因为我不确定普通selenium如何使用代理。现在，当我尝试在网站上运行程序进行测试时，如果它工作正常，我得到了下面的错误， Traceback (most recen

浏览 3提问于2021-01-07得票数 0

1回答

生成有效IP地址列表&在Python循环中随机使用

python、selenium、selenium-webdriver、ip-address

免责声明：这是我第一次尝试网络抓取“您对VINELink.com的访问已被拒绝，原因是利用率高于正常水平……您正试图从以下ip地址访问本网站。请确保防火墙设置没有限制访问。我的IP地址。” 是否有方法生成有效的随机IP地址列表，在循环中随机选择

浏览 1提问于2018-11-23得票数 1

回答已采纳

2回答

硒与Tor旋转IP

python、selenium、tor

我有一个用于抓取的selenium配置--一个特定的HTTP请求，这个请求只有在我单击网站的一个特定的REACT元素时才发送。所以我才用硒..。找不到别的办法了。我必须更新我的IP，每次我想刮这个特定的HTTP请求。为了达到这个目的，我使用了Tor。当我启动python脚本时，它运行得很好，Tor设置了一个新的ip，并刮掉了我想要的</e

浏览 0提问于2019-07-02得票数 0

回答已采纳

1回答

变色驱动器中用于擦拭的代理程序更改

python-3.x、selenium、google-chrome、proxy、selenium-chromedriver

我正在用selenium和Chrome抓取Bet365，这可能是我遇到过的最棘手的网站之一。这个页面的问题是，即使我的刮刀需要睡觉，但它无论如何也不会比人类跑得更快，有时候，它会阻止我的ip从随机的时间(半小时到两个小时)中消失。我<

浏览 0提问于2019-06-01得票数 0

2回答

TypeError：init()获得了一个意外的关键字参数'service‘错误，使用Python和公司pac文件

python、selenium、google-chrome、selenium-webdriver、selenium-chromedriver

我试图使用selenium来使用pac文件从公司代理后面的URL中抓取数据。我使用Chromedriver，我的浏览器在它的配置中使用pac文件。最初，我试图用漂亮的汤进行网络抓取，除了我现在需要的数据是在javascript中，而javascript是无法用bs4读取的。Options from se

浏览 9提问于2021-12-30得票数 4

回答已采纳

1回答

用BeautifulSoup从图像标签Src属性中提取JPG

javascript、python、html、web-scraping、beautifulsoup

我是刮这个个人使用的网页，和运行问题，提取每个项目的缩略图在页面上。当我使用“检查”来查看html DOM时，我可以查看包含我需要的..jpg的图像标记，但是当我使用“查看页面源”时，img标记就不会出现。起初，我认为这可能是一个异步的javascript加载问题，但是一个可靠的消息来源告诉我，我应该能够用漂亮的汤直接刮掉缩略图。a“标记的href属性的<

浏览 0提问于2018-02-08得票数 1

回答已采纳

1回答

如何将IP循环集成到我的网络抓取程序中？我一直被Crunchbase屏蔽

python、csv、web-scraping、ip

我写了一个程序，使用Beautiful Soup从Crunchbase提取公司列表的资金信息，并将这些信息导出到CSV文件中。我甚至将我的请求间隔了30秒，直到今天，程序都运行得很好--现在我甚至不能发送一个请求，除非得到一个HTTPError: Forbidden。我一直在读这篇文章，人们已经制作了IP循环程序，因为看起来Crunchbase已经屏蔽了我的IP地址-即使我循环我的用户代理，我仍然被阻止。我甚至试过使用几个免费

浏览 21提问于2019-06-14得票数 0

回答已采纳

1回答

如何在更换代理的同时在多个docker容器中运行selenium？

python-3.x、selenium、docker、selenium-webdriver

提前感谢你们所有人的耐心和好意。我刚接触docker，很难使用它来完成我的任务。请让我知道，如果我张贴了任何错误，而不是投票。我正在研究一个爬虫项目，并尝试使用docker + selenium +多个代理。这是我理想的工作流程:一台机器包含多个容器，一个爬虫(Selenium)脚本在一个容器中运行，每个脚本将完成“抓取和渲染网站->提取信息->更新本地数据库”的过程。

浏览 1提问于2019-10-19得票数 0

1回答

chrome --无头模式不工作，但正常模式工作正常

python、selenium、google-chrome、selenium-webdriver、selenium-chromedriver

我对chrome使用了下面的代码--headless模式，但是代码不能正确执行。代码在正常模式下工作正常。EC.element_to_be_clickable((By.XPATH, "//button[text()='Not Now']"))).click() File "/usr/local/lib/python3.8/dist-packages/seleniumwebdriver/support/wai

浏览 4提问于2021-12-01得票数 1

点击加载更多