腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(530)
视频
沙龙
2
回答
Python Scrapy:如何使用self.download_delay
、
CVSpider(scrapy.Spider): start_urls = ["login"] '
DOWNLOAD_DELAY
浏览 2
提问于2017-04-07
得票数 0
1
回答
Python,如何在单个蜘蛛中在每个请求之间做随机延迟?
、
我有一个蜘蛛,我想在每个请求之间有一个延迟,但是我不希望它是一个固定的数,而是两个界限之间随机的时间,我怎么能做到呢?
浏览 2
提问于2017-01-27
得票数 4
回答已采纳
1
回答
延迟的请求列表
、
我需要以5分钟为间隔抓取10次网页列表。这是为了收集URL以供以后抓取。另一种看待它的方式是for i in 1:10 { url_list += scrape request sleep 5 minfor site in url_list如何在集合之间添加延迟,而不在抓取请求之间添加延迟?谢谢
浏览 12
提问于2016-09-20
得票数 0
4
回答
如何设置Scrapy Auto_Throttle设置
、
、
我的用例是这样的:我有10 spiders,并且AUTO_THROTTLE_ENABLED设置全局设置为True。问题是,对于其中一个spiders,没有auto-throttling的运行时间是4天,但有自动节流的运行时间是40天……
浏览 0
提问于2015-04-21
得票数 1
1
回答
从爬行蜘蛛那里可以进入反应堆吗?
我正在研究在Scrapy蜘蛛中实现爬行延迟的方法。我想知道是否可以从蜘蛛中访问反应堆的方法?这将使页在n秒钟后很容易地被解析。
浏览 2
提问于2011-12-04
得票数 1
回答已采纳
1
回答
Scrapy的
Download_Delay
和并发请求没有按预期工作
、
、
、
查看scrapy的
download_delay
和Concurrent_requests文档,我的理解是:如果我有'CONCURRENT_ requests ':25和1秒的
download_delay
,如果我使用0秒的
download_delay
,scrapy在没有1秒延迟的情况下做同样的事情。下面是我的代码:name = "details" allowed_domains = ["www.xxx.com&quo
浏览 48
提问于2017-02-01
得票数 0
1
回答
在scrapy中处理启动请求操作
、
当我提交请求时,我面临着奇怪的行为,理想情况下,每个请求都会在6秒后产生,但实际发生的情况是,在60 (6*10)秒后,所有请求都会同时发出,我能够通过CONCURRENT_REQUESTS=1解决这个问题。import timeclass TestSpider(scrapy.Spider): allowed_domains = ['example.com'] def start
浏览 3
提问于2020-02-07
得票数 0
1
回答
如何在检测响应状态中的代码500时自动增加scrapy的
DOWNLOAD_DELAY
、
、
、
但是我发现很难在scrapy.setting.py文件中设置一个套装
DOWNLOAD_DELAY
。有太多的爬行器要编码,为每个爬行器找到合适的
DOWNLOAD_DELAY
会耗尽我的时间。我想知道哪些型号的爬虫加载和使用
DOWNLOAD_DELAY
参数,以及如何编写程序在检测服务错误时自动增加
DOWNLOAD_DELAY
(爬虫请求太频繁)。
浏览 2
提问于2019-01-17
得票数 1
1
回答
使用python高效地抓取web
、
、
我最近一直在尝试使用python抓取web内容。我已经设法为爬虫提供了一个种子,从这个种子开始抓取每个网站的标题、正文内容和指向另一个页面的每个链接。我想知道在100秒内抓取一个页面是否真的应该是一个缓慢的过程,如果是的话,我如何才能让它更快。我对它背后的理论很感兴趣。import requests as reqfrom bs4 import
浏览 0
提问于2014-12-18
得票数 0
1
回答
在Python中,
DOWNLOAD_DELAY
和time.sleep有什么不同?
、
正如标题所说,如果我设置'
DOWNLOAD_DELAY
':2,它在每个请求中与time.sleep(2)有什么不同? 谢谢你的帮助。
浏览 214
提问于2018-08-23
得票数 2
回答已采纳
6
回答
如何在scrapy中给出每个请求之间的延迟?
、
、
我不想同时爬行和被阻塞。我想每秒发送一个请求。
浏览 3
提问于2012-01-07
得票数 50
回答已采纳
1
回答
每只蜘蛛随机等待
、
、
、
我希望在请求之间使用随机等待,并将等待设置为每一个刮板。import timetime.sleep(np.random.normal(loc=avg, scale=stddev))这在刮痕上有可能吗?也许是一个定制的中间件?
浏览 3
提问于2016-06-24
得票数 0
回答已采纳
1
回答
我需要油门刮板,以只命中网站每4s从python的URLS列表- scrapy,scrapy,python
、
、
、
刮一个python的网络域名列表,想把4秒的延迟之间的每一次刮,以符合robots.txt。希望每次迭代都异步运行,因此循环将每隔4秒继续运行一次,而不管该特定页面的抓取是否已完成。import requestscsvFile = open('test.csv&
浏览 0
提问于2019-07-29
得票数 0
1
回答
在每个域上执行高并发和低请求率的Scrapy with。
、
、
、
我在试着做一个抓痕很宽的爬行。我们的目标是在不同的域上有许多并发的爬行,但同时在每个域上缓慢地爬行。因此能够保持良好的爬行速度并保持每个url上的请求频率较低。import refrom scrapy.contrib.spiders import CrawlSpider, Rulefrom myproject.items import MyprojectItem class testSpider(CrawlS
浏览 4
提问于2016-05-23
得票数 5
1
回答
根据请求模块将curl执行的post请求转换为python请求
、
、
、
,它真的非常简单:但是,当我想根据模块请求将其插入到python脚本中时,我对setting=
DOWNLOAD_DELAY
=2有点困惑,因为它不遵循通常的格式(key=value)。所以我试了一下: r = requests.post("http://httpb
浏览 0
提问于2013-02-22
得票数 3
回答已采纳
1
回答
如何通过Python中的__init__设置类变量?
、
最起码的例子: '
DOWNLOAD_DELAY
': 10, # defaultself.delay = kwargs.get('delay') testSpider.custom_settings['
DOWNLOAD_DELAY
'] = self.delay print(
浏览 2
提问于2021-11-08
得票数 2
回答已采纳
1
回答
如何在使用scrapy解析时尽量减少服务器负载?/如何忽略<body>并仅解析来自<head>的信息
settings.py CONCURRENT_REQUESTS = 32
DOWNLOAD_DELAY
= 0.33现在速度为180/min(有时为200)
浏览 1
提问于2019-06-30
得票数 0
回答已采纳
3
回答
可以在scrapy中设置动态下载延迟吗?
、
、
我知道可以设置一个恒定的延迟
DOWNLOAD_DELAY
= 2有没有什么模块可以做到这一点?if (requesting too frequently) is found increase the
DOWNLOAD_DELAY
浏览 4
提问于2014-12-03
得票数 4
1
回答
刮擦CONCURRENT_REQUESTS在
DOWNLOAD_DELAY
设置时被忽略了?
、
在我看来,在观察刮痕统计数据(Crawled X pages (at X pages/min))时,例如:设置了请求,无论CONCURRENT_REQUESTS当没有
DOWNLOAD_DELAY
查询时,使用CONCURRENT_REQUESTS = 5查询20个项目需要4秒,而CONCURRENT_REQUESTS = 1则需要10秒,这对我来说更有意义。custom_settings = {
浏览 1
提问于2016-05-26
得票数 4
回答已采纳
1
回答
为什么python scrapy显示"twisted.internet.error.TimeoutError“错误
、
我正在尝试使用python scrapy删除一个页面。经过一些报废操作后,scrapy正在退出显示下面是我的代码:from scrapy.spider import BaseSpiderfrom scrapy.http.request import Requestfrom infobel.items im
浏览 0
提问于2012-05-01
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python中Scrapy框架爬取豆瓣电影top250
selenium python系列(一)环境配置
带你领略功能强大的python Scrapy框架,小白可望不可即的那些框架
scrapy爬取漫画
5个技巧防止爬虫被墙,高效爬取大量数据
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券