开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

为我的Scrapy spider写了一个errback，但是回溯也在不断发生，为什么？

在Scrapy中，errback是用于处理请求发生错误时的回调函数。当一个请求发生错误时，Scrapy会调用errback函数来处理错误，并且可以选择重新发送请求或者进行其他操作。

回溯（backtrace）是指在程序执行过程中，当出现错误时，系统会将错误信息以及错误发生的位置进行记录，以便开发者进行错误定位和调试。在Scrapy中，当一个请求发生错误并调用errback函数时，如果在errback函数中发生了新的错误，那么系统会将这个新的错误信息添加到回溯中，从而形成回溯链。

回溯链的发生可能有以下几个原因：

递归调用：在errback函数中可能会再次发起新的请求，如果这个新的请求又发生错误并调用了errback函数，就会形成回溯链。这种情况下，需要检查errback函数中是否存在递归调用的情况，如果存在，需要进行相应的调整。
异常处理不当：在errback函数中可能存在异常处理不当的情况，导致新的错误发生。例如，没有正确处理异常或者没有正确捕获异常导致程序崩溃。这种情况下，需要仔细检查errback函数中的异常处理逻辑，确保异常能够被正确捕获和处理。
请求重试设置不当：Scrapy提供了请求重试的功能，可以在请求发生错误时自动进行重试。如果在errback函数中没有正确设置重试次数或者重试策略，就可能导致请求不断重试，从而形成回溯链。这种情况下，需要检查Scrapy的请求重试设置，确保设置合理。

为了解决回溯链的问题，可以采取以下措施：

检查errback函数中是否存在递归调用的情况，如果存在，需要进行相应的调整，避免无限循环。
确保errback函数中的异常处理逻辑正确，异常能够被正确捕获和处理，避免程序崩溃。
检查Scrapy的请求重试设置，确保设置合理，避免请求不断重试。

总结：回溯链的发生可能是由于递归调用、异常处理不当或者请求重试设置不当等原因导致的。为了解决回溯链的问题，需要仔细检查errback函数中的逻辑，并确保递归调用、异常处理和请求重试设置合理。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

scrapy之原理

Scrapy Engine 引擎负责控制数据流在系统中所有组件中流动，并在相应动作发生时触发事件。详细内容查看下面的数据流(Data Flow)部分。...Spiders Spider是Scrapy用户编写用于分析response并提取item(即获取到的item)或额外跟进的URL的类。每个spider负责处理一个特定(或一些)网站。...其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能。更多内容请看 Spider中间件(Middleware) 。...数据流(Data flow) Scrapy中的数据流由执行引擎控制，其过程如下: 1.引擎打开一个网站(open a domain)，找到处理该网站的Spider并向该spider请求第一个要爬取的...只要在items中写了都会执行)—-> 自己写的spider中的类变量 —–>内部方法misc (会生成所有spider的一个list)、spiderloader 、crawler(_get_spider_loader

1.1K3 0

Python爬虫从入门到放弃（十七）之 Scrapy框架中Download Middleware用法

这篇文章中写了常用的下载中间件的用法和例子。...:9743 所以直接设置为代理用，代理的地址为日本的ip 然后在settings.py配置文件中开启下载中间件的功能，默认是关闭的 ?...异常如果其返回一个Response(可以与传入的response相同，也可以是全新的对象)，该response会被在链中的其他中间件的 process_response() 方法处理。...这里我们写一个简单的例子还是上面的项目，我们在中间件中继续添加如下代码： ? 然后在spider中打印状态码： ? 这样当我们重新运行爬虫的时候就可以看到如下内容 ?...这样设置之后我们就把失败重试的中间件给关闭了，设置为None就表示关闭这个中间件，重新启动爬虫我们也可以看出没有进行重试直接报错了 ?

1.2K8 0

Python:ResquestResponse

method: 请求一般不需要指定，默认GET方法，可设置为"GET", "POST", "PUT"等，且保证字符串大写 headers: 请求时，包含的头文件。一般不需要。...If-Modified-Since: Mon, 25 Aug 2014 21:59:35 GMT Cache-Control: max-age=0 meta: 比较常用，在不同的请求之间传递数据使用的...如果希望程序执行一开始就发送POST请求，可以重写Spider类的start_requests(self) 方法，并且不再调用start_urls里的url。...下面是使用这种方法的爬虫例子: import scrapy class LoginSpider(scrapy.Spider): name = 'example.com' start_urls...)[0] print xsrf #FormRequeset.from_response是Scrapy提供的一个函数, 用于post表单 #登陆成功后, 会调用

3941 0

Scrapy框架系列--爬虫又被封了？（2）

目录前言 Spider Middleware 瞎比比前言上一篇文章《爬虫利器初体验（1）》中，我们举了个简单的栗子，但是在真实的开发中这样的爬虫代码很容易就会被封掉。...那么怎么样才能避免这些事发生呢？这一这篇文章我们一起来学习，如何健壮我们的爬虫代码。...如果其返回一个 Response (可以与传入的response相同，也可以是全新的对象)，该response会被在链中的其他中间件的 process_response() 方法处理。...如果其抛出一个 IgnoreRequest 异常，则调用 request 的 errback( Request.errback)。...那么，在 scrapy 中如何来设置我们的 ip 代理呢？

8112 0

听说你的爬虫又被封了？

目录前言 Spider Middleware 瞎比比前言上一篇文章《爬虫利器初体验》中，我们举了个简单的栗子，但是在真实的开发中这样的爬虫代码很容易就会被封掉。那么怎么样才能避免这些事发生呢？...如果没有任何一个方法处理该异常，则 request 的errback(Request.errback) 方法会被调用。如果没有代码处理抛出的异常，则该异常被忽略且不记录(不同于其他异常那样)。...如果其返回一个 Response (可以与传入的response相同，也可以是全新的对象)，该response会被在链中的其他中间件的 process_response() 方法处理。...如果其抛出一个 IgnoreRequest 异常，则调用 request 的 errback( Request.errback)。...那么，在 scrapy 中如何来设置我们的 ip 代理呢？

4853 0

python爬虫人门（10）Scrapy框架之Downloader Middlewares

该设置是一个字典(dict)，键为中间件类的路径，值为其中间件的顺序(order)。...如果没有任何一个方法处理该异常，则request的errback(Request.errback)方法会被调用。如果没有代码处理抛出的异常，则该异常被忽略且不记录(不同于其他异常那样)。...如果其返回一个 Response (可以与传入的response相同，也可以是全新的对象)，该response会被在链中的其他中间件的 process_response() 方法处理。...如果其抛出一个 IgnoreRequest 异常，则调用request的errback(Request.errback)。...同时也支持小数: DOWNLOAD_DELAY = 0.25 # 250 ms of delay 默认情况下，Scrapy在两个请求间不等待一个固定的值，而是使用0.5到1.5之间的一个随机值 *

8058 0

Python Scrapy框架之 Downloader Middleware的使用

': 900, # Downloader side } 字典格式，其中数字为优先级，越小的优先调用。...如果没有任何一个方法处理该异常，则request的errback(Request.errback)方法会被调用。如果没有代码处理抛出的异常，则该异常被忽略且不记录。...IgnoreRequest异常如果其返回一个Response(可以与传入的response相同，也可以是全新的对象)，该response会被在链中的其他中间件的 process_response()...如果其抛出一个 IgnoreRequest 异常，则调用request的errback(Request.errback)。如果没有代码处理抛出的异常，则该异常被忽略且不记录(不同于其他异常那样)。...这里我们写一个简单的例子还是上面的项目，我们在中间件中继续添加如下代码： ... def process_response(self, request, response, spider): response.status

9473 1

scrapy ip池(scrapy多线程)

大家好，又见面了，我是你们的朋友全栈君。...如果没有任何一个方法处理该异常，则request的errback(Request.errback)方法会被调用。如果没有代码处理抛出的异常，则该异常被忽略且不记录(不同于其他异常那样)。...如果其返回一个 Response (可以与传入的response相同，也可以是全新的对象)，该response会被在链中的其他中间件的 process_response() 方法处理。...如果其抛出一个 IgnoreRequest 异常，则调用request的errback(Request.errback)。...Scrapy将不会调用任何其他中间件的 process_exception() 方法。如果其返回一个 Request 对象，则返回的request将会被重新调用下载。

4393 0

【源码解读】如何充分发挥 Scrapy 的异步能力

作为一个易上手的高性能爬虫框架，Scrapy 使用 Twisted 异步网络框架处理并发请求。但是，在日常工作和面试过程中，经常发现有些同学会笃定地认为 Scrapy 采用的是多线程并发模型。..._scrape 函数返回后，在该 Deferred 实例上注册的 callback 和 errback 有： callback errback...它的运行模式也和 Spider Middlerware 类似，但是实现细节上却存在很大区别。...Scrapy 提供的一个下载中间件 scrapy.downloadermiddlewares.robotstxt 就利用了这种用法，在发出实际请求之前，根据需求先去请求了网站的 robots.txt...首先，对于约定方法可以返回 Request 实例的扩展组件，我们只需要像开发 Spider 代码一样，为 Request 指定实现了业务逻辑的回调函数，然后将该 Request 作为方法返回值返回给 Scrapy

3.5K3 0

scrapy的下载器中间件

是用于全局修改Scrapy request和response的一个轻量、底层的系统。...如果没有任何一个方法处理该异常，则request的errback(Request.errback)方法会被调用。如果没有代码处理抛出的异常，则该异常被忽略且不记录(不同于其他异常那样)。...如果其返回一个 Response (可以与传入的response相同，也可以是全新的对象)，该response会被在链中的其他中间件的 process_response() 方法处理。...如果其抛出一个 IgnoreRequest 异常，则调用request的errback(Request.errback)。...，但是如果要爬取大型的网站，会遇到被ban的可能就要在下载器中间件这里着手，设置一些相应的请求头，ip代理等等内容。

6520 0

scrapy的errback

在scrapy我们可以设置一些参数，如DOWNLOAD_TIMEOUT，一般我会设置为10，意思是请求下载时间最大是10秒，文档介绍 ?...如果下载超时会抛出一个错误，比如说 def start_requests(self): yield scrapy.Request('https://www.baidu.com/'...今天讲的就是如何处理这个异常，也就是scrapy的errback。 ?...DNSLookupError from twisted.internet.error import TimeoutError, TCPTimedOutError class ErrbackSpider(scrapy.Spider...对象，如果需要重试，直接yield即可errback函数能捕获的scrapy错误有：连接建立超时，DNS错误等。

2K1 0

python爬虫----（scrapy框架提高（1），自定义Request爬取）

--- 结合官方文档例子，简单整理一下： import scrapy from myproject.items import MyItem class MySpider(scrapy.Spider...---- 从Spider源码中，可以看到： # 代码片段 class Spider(object_ref): """Base class for scrapy spiders....# 第一个函数 def parse(self, response): # collect `item_urls` # 可以理解为：网站的所有导航菜单的超链接集合...，也就是从父类Spider类中继承过来的（或者说是一个必须要实现的接口），但是需要实现。...在这个函数体中，根据 start_requests （默认为GET请求）返回的 Response，得到了一个名字为‘item_urls’ 的url集合。然后遍历并请求这些集合。

7582 0

网络爬虫框架Scrapy详解之Request

通常在Spider中创建这样的一个请求，在Downloader中执行这样的一个请求。同时也有一个子类FormRequest继承于它，用于post请求。...若需要POST请求，用FormRequest即可 headers 请求头信息，一般在settings中设置即可，也可在middlewares中设置 body str类型，为请求体，一般不需要设置（get...），可以多次执行相同的请求 errback 抛出错误的回调函数，错误包括404，超时，DNS错误等，第一个参数为Twisted Failure实例 from scrapy.spidermiddlewares.httperror...', meta = {'name' : 'Zarten'}) 在Response中： my_name = response.meta['name'] 不过也有scrapy内置的特殊key，也非常有用，它们如下...的子类，用于POST请求这个类新增了一个参数 formdata，其他参数与Request一样，详细可参考上面的讲述一般用法为: yield scrapy.FormRequest(url="http:

8790 0

Python:Downloader Middlewares

该设置是一个字典(dict)，键为中间件类的路径，值为其中间件的顺序(order)。...如果没有任何一个方法处理该异常，则request的errback(Request.errback)方法会被调用。如果没有代码处理抛出的异常，则该异常被忽略且不记录(不同于其他异常那样)。...如果其返回一个 Response (可以与传入的response相同，也可以是全新的对象)，该response会被在链中的其他中间件的 process_response() 方法处理。...如果其抛出一个 IgnoreRequest 异常，则调用request的errback(Request.errback)。...Scrapy代理IP、Uesr-Agent的切换都是通过DOWNLOADER_MIDDLEWARES进行控制，我们在settings.py同级目录下创建middlewares.py文件，包装所有请求。

3231 0

三、scrapy后续 LinkExtractorsrules Logging发送POST请求内置设置参考手册

该设置是一个字典(dict)，键为中间件类的路径，值为其中间件的顺序(order)。...如果其返回一个 Response (可以与传入的response相同，也可以是全新的对象)，该response会被在链中的其他中间件的 process_response() 方法处理。...同时也支持小数: DOWNLOAD_DELAY = 0.25 # 250 ms of delay 默认情况下，Scrapy在两个请求间不等待一个固定的值，而是使用0.5到1.5之间的一个随机值...，但是提供了一些额外的保护减少错误。...11 12 可以通过创建一个 scrapy.Item 类，并且定义类型为 scrapy.Field的类属性来定义一个Item（可以理解成类似于ORM的映射关系）。'''

2K4 0

Scrapy的Meta、异常处理

Meta 信息传递在创建REQEUSTS对象时设置meta yield scrapy.FormRequest(meta={"keyword": keyword, "sta_date": sta_date.... max_retry_times 设置最大重试次数. dont_merge_cookies 和 cookiejar 操作cookie的meta参数, 但是不建议这么使用, 一般来说我们直接设置 request.headers...Spiders组件在异常处理中, Spider组件其实是处理RESPONSE对象或者请求之后产生的异常, 一般作为一次请求异常处理的终点, 也就是指定的回调函数errorback. errorback...由下一层中间件继续处理, 如果你指定了errback, 最终会到达errback 返回REPONSE对象中断异常链, 返回的RESPONSE对象会到达Spiders组件返回Request 中断异常链...# 补充cookie池 if isinstance(exception, IndexError): # 我已经知道异常产生原因, 所以免除当前重试次数的计数

4991 0

scrapy之ip池

如果没有任何一个方法处理该异常，则request的errback(Request.errback)方法会被调用。如果没有代码处理抛出的异常，则该异常被忽略且不记录(不同于其他异常那样)。...如果其返回一个 Response (可以与传入的response相同，也可以是全新的对象)，该response会被在链中的其他中间件的 process_response() 方法处理。...如果其抛出一个 IgnoreRequest 异常，则调用request的errback(Request.errback)。...Scrapy将不会调用任何其他中间件的 process_exception() 方法。如果其返回一个 Request 对象，则返回的request将会被重新调用下载。...– request对应的spider 参考：官网https://doc.scrapy.org/en/latest/topics/downloader-middleware.html 中文版： http

1.1K2 0

scrapy进阶开发（一）：scrapy架构源码分析

image.png Spider（我们编码的一个网站的爬虫） yield 一个 Request 出来，并发送给Engine（产生request，处理response） Engine拿到Request以后发送给...Scheduler（调度器） Scheduler生成一个Requests交给Engine Engine拿到 Scheduler的request后（注意是Scheduler发来的而不是Spider发来的）...Item Piplines，将结果一步一步的Piplines将数据持久化到不同存储体里，比如JSON，Mysql，ES等源码分析 Scrapy 核心的代码都在scrapy类库的scrapy/core文件夹下...方法， # 但是scheduler里此时没有request，所以就会去从Spider中读取start_urls if not request: return...：元信息，（可以在Request中传递） # encoding：网页编码格式，默认UTF-8 # priority：设置在scheduler的调度优先级 # dont_filter

2.5K4 0

爬虫系列（13）Scrapy 框架-CrawlSpider、图片管道以及下载中间件Middleware。

当callback为None,默认值为True - process_links：主要用来过滤由link_extractor获取到的链接 - process_request：主要用来过滤在rule中提取到的...介绍 Scrapy提供了一个 item pipeline ，来下载属于某个特定项目的图片，比如，当你抓取产品时，也想把它们的图片下载到本地。...如果没有任何一个方法处理该异常，则 request 的 errback(Request.errback)方法会被调用。...(可以与传入的response相同，也可以是全新的对象)，该response会被在链中的其他中间件的 process_response() 方法处理。...-如果其抛出一个 IgnoreRequest 异常，则调用request的errback(Request.errback)。

1.3K2 0

Python爬虫入门教程 31-100 36氪(36kr)数据抓取 scrapy

1. 36氪(36kr)数据----写在前面今天抓取一个新闻媒体，36kr的文章内容，也是为后面的数据分析做相应的准备的，预计在12月底，爬虫大概写到50篇案例的时刻，将会迎来一个新的内容，系统的数据分析博文...网址 https://36kr.com/ [szhmloy9yu.png] 2. 36氪(36kr)数据----数据分析 36kr的页面是一个瀑布流的效果，当你不断的下拉页面的时候，数据从后台追加过来，...per_page=20&page=4&_=1543840108547 在多次尝试之后，发现per_page最大可以扩展到300，但是当大于100的数据，返回的数据并不是很理想，所以，我们拟定为100即可...这个参数这个地方，需要注意 yield 返回数据为Request() 关于他的详细说明，请参照 https://scrapy-chs.readthedocs.io/zh_CN/0.24/topics..., encoding='utf-8', priority=0, dont_filter=False, errback]) class Kr36Spider(scrapy.Spider): name

9742 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭