Scrapy:限制下一页被抓取的数量。不幸的是，DEPTH_LIMIT自定义设置不起作用

Scrapy是一款基于Python的开源网络爬虫框架，用于抓取网页数据。在使用Scrapy进行爬取过程中，有时我们希望限制下一页被抓取的数量，但是发现自定义设置的DEPTH_LIMIT无法起作用。这可能是由于一些常见问题导致的，下面我会提供一些解决方案和可能的原因。

确认DEPTH_LIMIT的设置位置：在Scrapy的配置文件（一般为settings.py）中设置DEPTH_LIMIT参数，该参数用于限制爬取的深度，默认为0，表示不限制深度。
检查Spider的parse方法：确保你的Spider类中的parse方法正确处理了下一页的链接，并将其加入到请求队列中进行爬取。如果parse方法没有正确地处理下一页的链接，那么即使设置了DEPTH_LIMIT，也无法起作用。你可以使用response.follow方法或者response.xpath/selector来提取下一页的链接，并通过yield或者return返回一个新的请求。
检查其他爬虫中间件和扩展：有时候其他自定义的爬虫中间件或者扩展可能会影响DEPTH_LIMIT的设置。可以尝试暂时禁用其他中间件或者扩展，看是否能够解决问题。
检查日志输出：Scrapy会输出日志信息，可以检查日志是否有关于DEPTH_LIMIT的提示或者警告信息，以及其他可能的错误信息。通过阅读日志，可以更好地了解为什么DEPTH_LIMIT设置不起作用。

如果上述方法都无法解决问题，可能是由于一些特殊情况导致的。在这种情况下，你可以尝试通过自定义中间件或者扩展来实现对下一页数量的限制。你可以在请求发送前检查深度，并决定是否跳过该请求。

总结起来，确保正确设置DEPTH_LIMIT参数、正确处理下一页链接的请求以及排查其他中间件和扩展是否干扰了DEPTH_LIMIT的设置，这些是解决Scrapy中DEPTH_LIMIT自定义设置不起作用的常见方法。如果你需要更深入地了解Scrapy的使用和原理，可以参考腾讯云相关的文档和教程，例如腾讯云服务器less云函数SCF的Serverless Framework SCF 部署 Scrapy 爬虫指南（https://cloud.tencent.com/document/product/583/51873）。

希望以上的答案能够帮助你解决问题，如果有其他疑问，请随时提问。

页面内容是否对你有帮助？

有帮助

没帮助

Scrapy:限制下一页被抓取的数量。不幸的是，DEPTH_LIMIT自定义设置不起作用

、

我已经建立了一个简单的亚马逊刮板来下载产品的清单。但是，我不确定如何才能限制下一页的爬行数量。理想情况下，我不希望爬虫爬行超过10个页面的每个主页，它开始。有些URL实际上只有2个页面。下面是我的代码： import scrapyfrom scraper_api import ScraperAPIClient#Er

浏览 36提问于2021-07-22得票数 0

回答已采纳

1回答

在Scrapy中重写parse_start_url()并将爬行深度限制在1

、、、

我正在使用Scrapy抓取一个站点，并重写了parse_start_url()，以便刮取start URL。但是，这意味着当我将DEPTH_LIMIT设置设置为1时，Scrapy会在深度2处爬行(因为我猜开始urls不计算在深度上是有意义的，如果它们通常被解析的话)。在除1之外的任何深度爬行时，这都是可以的，因为我只需将DEPTH_LIMIT减少1来说明这一点。但是，当爬行深度为1时，这将无法工作，

浏览 11提问于2015-01-08得票数 2

回答已采纳

3回答

python/scrapy问题:如何避免无尽的循环

、、、

我正在使用web抓取框架scrapy来对一些站点进行数据挖掘。我正在尝试使用CrawlSpider，页面上有一个“上一步”和“下一步”按钮。URL的格式为其中，###是每次按下next按钮时递增的数字。如何格式化规则，使其不会出现无限循环。这是我的规则： Rule(SgmlLinkExtractor(allow='http://not-a-real-sit

浏览 2提问于2011-07-14得票数 2

1回答

每个站点有有限深度的Python爬行多个站点

、、

我对Scrapy很陌生，我正在尝试用CrawlSpider从文本文件中抓取多个站点。但是，我想限制每个站点的抓取深度，也限制每个网站的爬行页面总数。不幸的是，当设置start_urls和allowed_domains属性时，response.meta‘深度’似乎总是为零(当我试图刮单个站点时不会发生这种情况)。在设置文件中设置DEPTH_LIMIT</em

浏览 3提问于2013-04-06得票数 7

回答已采纳

1回答

如何在Scrapy中有条件地重试和重新整理当前页面？

、、

我是Scrapy的新手，对Python也不是很熟悉。我已经设置了一个抓取器来从网站上抓取数据，但是虽然我使用的是代理，但如果同一个代理被使用太多次，那么我的请求就会显示一个页面，告诉我访问太多页面太快(HTTP状态代码200)。因为我的抓取器看到的是页面的状态代码为on，它找不到所需的数据并移动到下一页

浏览 1提问于2013-03-25得票数 3

回答已采纳

1回答

抓取LinkExtractor -限制每个URL爬行的页数

、、、

我试图限制抓取的CrawlSpider中每个URL的爬行页面数。我有一个start_urls的列表，我想对每个URL中的页面爬行的数量设置一个限制。一旦达到限制，蜘蛛应该移动到下一个start_url。任何帮助都是有用的。下面是我

浏览 1提问于2015-12-24得票数 7

1回答

Scrapy - Spider抓取重复的urls

、、

我正在抓取一个搜索结果页面，并从同一页面抓取标题和链接信息。因为它是一个搜索页，所以我也有指向下一页的链接，这是我在SgmlLinkExtractor中指定允许的。这个问题的描述是，在第一页，我找到了Page2和Page3的链接来抓取，它做得很好。但是当它抓取第二页时，它又有到Page1(上一页)和Page3(

浏览 3提问于2013-02-27得票数 4

2回答

抓取内存错误(请求太多)Python2.7

、、、、

我一直在运行一个抓取爬虫在抓取一个大网站，我宁愿不提。这样做的结果是一个重复的大异常，结果如下： File "C:\Python27\lib\site-packages\scrapy\utils\defer.py", line 57, in <genexpr，python可执行气球到1.8gigs和Scrapy的功能就不再起作用了(继续浪费我的代理使用费！)有没有任何方法让Scrapy去

浏览 1提问于2015-06-16得票数 1

回答已采纳

1回答

刮擦CLOSESPIDER_PAGECOUNT设置不能正常工作

、、

我使用scrapy 1.0.3，无法发现CLOSESPIDER扩展1.0.3是如何工作的。对于命令: scrapy爬行domain_links --set=CLOSESPIDER_PAGECOUNT=1是正确的一个命令，但是对于两个页面计数: scrapy爬行domain_links -set%s', response.url)但并不是无限：

浏览 4提问于2015-12-30得票数 1

回答已采纳

2回答

在条件下停止分页？

、、、

所以我想从一个有分页的网站上抓取文章。基本上，每个页面都是文章链接的列表，爬行器遵循parse_article方法中页面上的链接，以及后续的下一个页面链接。但是，在一定数量的文章被刮过之后，是否有一种方法可以使这个停止呢？parse_article'), #do parsing stuff here 在我分析了150篇文章之后，我想停止关注

浏览 1提问于2017-06-13得票数 1

回答已采纳

9回答

BeautifulSoup和Scrapy* crawler有什么区别？*

、、、

我想做一个网站，显示亚马逊和易趣产品价格的比较。其中哪一个会工作得更好?为什么？我对BeautifulSoup比较熟悉，但对Scrapy crawler不太熟悉。

浏览 323提问于2013-10-30得票数 146

回答已采纳

1回答

LinkedIn抓取多个页面

、、

我知道是否允许刮LinkedIn是有争议的；但是从以下文章中可以看出：现在，我试图在一个特定的地区寻找一个特定的职位。到目前为止，一切都很好，除了25份工作的数量限制外，一切正常。我试图使用以下技巧:在URL中，我传递一个关键字&start=X，其中X从0到25、50等等。在浏览器中，这允许我转到<e

浏览 1提问于2019-10-24得票数 0

3回答

我有12000个已知的URL，用Python抓取它们最快的方法是什么？

、、

因此，我有一个从数据库中提取的URL列表，我需要抓取和解析每个URL的JSON响应。一些URL返回null，而其他URL返回发送到csv文件的信息。我目前使用的是Scrapy，但它需要大约4个小时来抓取这12000个URL。我研究过像、和这样的东西，但我不确定它们是否适合我的用例，因为它们似乎是围绕着抓取网站上找到的URL。对于单机抓取的如此多<

浏览 0提问于2020-08-25得票数 0

2回答

如何通过滚动到React从Mongodb集合中获取部分文档以进行加载

、、

[5, 5] }}) .sort({ $natural: -1 }); 我试过了，但数据是完整的populate('user', ['avatar', 'firstName']) .sort({ $natural: -1 }).skip(5).limit(5); 但每次请求都会返回相同的5个文档；这是我

浏览 27提问于2020-01-22得票数 1

回答已采纳

1回答

android应用程序中的Blogger API仅显示10个帖子

、、、

但在我的应用程序中，它上线后只显示了10个帖子，但在我的博客中有超过10个帖子。请给我一个同样的解决方案。

浏览 29提问于2020-07-04得票数 0

2回答

如何在Python中限制每个站点的跟随页面数

、、

我正在努力建立一个蜘蛛，可以有效地刮刮从许多网站的文本信息。因为我是Python用户，所以我被推荐到Scrapy。然而，为了避免抓取庞大的网站，我想限制蜘蛛不超过20页的某个“深度”的每个网站。)+ '.txt', 'a').write(response.url) open(str(self.fname)+ '.txt', 'a&#

浏览 4提问于2013-05-21得票数 7

回答已采纳

2回答

遇到指定URL时停止刮除蜘蛛

、

这个问题非常类似于和其他几年前提出的问题。然而，建议的解决方案要么是针对Scrapy1.1.1的，要么是不确切相关的。任务是当蜘蛛到达某个网址时关闭它。在设置CLOSESPIDER_TIMEOUT CLOSESPIDER_ITEMCOUNT CLOSESPIDER_PAGECOUNT CLOSESPIDER_ERRORCOUNT中，项计数和页计数选项是关闭的，但还不够，因为您永远不

浏览 0提问于2016-09-10得票数 1

回答已采纳

6回答

如何在scrapy中给出每个请求之间的延迟？

、、

我不想同时爬行和被阻塞。我想每秒发送一个请求。

浏览 3提问于2012-01-07得票数 50

回答已采纳

2回答

下载文件时刮掉i/o块

、

我使用Scrapy来抓取一个网页并下载一些文件。由于我得到的file_url将重定向到另一个url (302个重定向).So，所以我使用另一个方法handle_redirect来获得重定向的url。从这里来的当项目到达FilesPipeline时，file_urls字段中的URL将使用标准的Scrapy调度程序和下载器(这意味着重新使用调度器和下载机中间件)进行下载，但是具有更高的优先级，在其他页面被刮掉之前处

浏览 8提问于2016-08-06得票数 3

回答已采纳

4回答

Scrapy: HTTP状态码不被处理还是不被允许？

、、

我想在类别中获得产品标题，链接，价格我的文件: spiders/tiki.pyfrom scrapy.linkextractorsimport LinkExtractor ".price

浏览 9提问于2017-10-15得票数 18

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Scrapy:限制下一页被抓取的数量。不幸的是，DEPTH_LIMIT自定义设置不起作用

相关·内容

Scrapy:限制下一页被抓取的数量。不幸的是，DEPTH_LIMIT自定义设置不起作用

在Scrapy中重写parse_start_url()并将爬行深度限制在1

python/scrapy问题:如何避免无尽的循环

每个站点有有限深度的Python爬行多个站点

如何在Scrapy中有条件地重试和重新整理当前页面？

抓取LinkExtractor -限制每个URL爬行的页数

Scrapy - Spider抓取重复的urls

抓取内存错误(请求太多)Python2.7

刮擦CLOSESPIDER_PAGECOUNT设置不能正常工作

在条件下停止分页？

BeautifulSoup和Scrapy* crawler有什么区别？*

LinkedIn抓取多个页面

我有12000个已知的URL，用Python抓取它们最快的方法是什么？

如何通过滚动到React从Mongodb集合中获取部分文档以进行加载

android应用程序中的Blogger API仅显示10个帖子

如何在Python中限制每个站点的跟随页面数

遇到指定URL时停止刮除蜘蛛

如何在scrapy中给出每个请求之间的延迟？

下载文件时刮掉i/o块

Scrapy: HTTP状态码不被处理还是不被允许？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐