Scrapy分页不起作用，优化了爬行器

Scrapy是一个基于Python的开源网络爬虫框架，用于快速、高效地从网页中提取数据。在爬取网页时，有时会遇到分页的情况，而Scrapy默认情况下并不会自动处理分页。下面是关于Scrapy分页不起作用的问题的解答和优化建议：

问题：Scrapy分页不起作用，如何优化爬虫？

回答：当Scrapy的分页功能不起作用时，可以考虑以下优化方法：

检查分页参数：首先，确保你正确地配置了分页参数。在Scrapy的请求中，你需要指定分页参数，例如页码、每页数量等。检查你的请求是否正确设置了这些参数。
检查请求链接：确认你的请求链接是否正确。有时候，分页链接可能会有变化，需要根据实际情况进行调整。可以通过浏览器开发者工具或网络抓包工具来查看实际的请求链接。
检查页面解析规则：确保你正确地配置了页面解析规则。在Scrapy的解析函数中，你需要编写代码来提取目标数据，并且正确处理分页链接。检查你的解析函数是否正确处理了分页链接，并且能够正确提取数据。
使用自定义中间件：如果以上方法都无法解决问题，可以考虑使用自定义中间件来处理分页。通过编写一个中间件，你可以在请求发送前或响应返回后对请求进行修改，从而实现分页功能。具体实现方法可以参考Scrapy的官方文档。
考虑使用其他框架或工具：如果Scrapy无法满足你的需求，你可以考虑使用其他网络爬虫框架或工具。例如，BeautifulSoup、Selenium等都是常用的爬虫工具，它们可能更适合处理特定的分页情况。

总结：Scrapy分页不起作用可能是由于配置错误、链接问题、解析规则错误等原因导致的。通过检查和优化这些方面，可以解决分页问题。如果以上方法都无法解决，可以考虑使用其他爬虫框架或工具。

腾讯云相关产品推荐：腾讯云提供了一系列云计算产品，包括云服务器、云数据库、云存储等。对于爬虫应用，可以考虑使用腾讯云的云服务器（CVM）来部署Scrapy爬虫，使用云数据库（CDB）来存储爬取的数据，使用云存储（COS）来存储爬取的文件等。具体产品介绍和链接如下：

云服务器（CVM）：腾讯云的云服务器提供了稳定可靠的计算资源，适合部署各种应用程序，包括爬虫。了解更多：云服务器产品介绍
云数据库（CDB）：腾讯云的云数据库提供了高性能、可扩展的数据库服务，适合存储爬取的数据。了解更多：云数据库产品介绍
云存储（COS）：腾讯云的云存储提供了安全可靠的对象存储服务，适合存储爬取的文件、图片等。了解更多：云存储产品介绍

请注意，以上推荐的腾讯云产品仅供参考，具体选择应根据实际需求和情况进行。

Scrapy分页不起作用，优化了爬行器

、

特别是下一页分页不起作用。有很多页每页有50个项目。我在parse_items中捕获了第一页的50个项目(链接)，下一页的项目也在parse_items中被丢弃。import scrapyfrom fake_useragent import UserAgent release = Field() class discoSpider(<em

浏览 1提问于2018-03-05得票数 0

回答已采纳

1回答

Scrapy到底在哪里做html请求呢？

、、

我在Python3中使用Scrapy (Scrapy==1.6.0)库。我想知道，在代码中Scrapy实际上在哪里做HTML请求？现在我的爬行器找不到任何页面，所以我想我要么得到一个空白的HTML文档，要么得到一个403错误，但是我不知道从哪里去确认这一点。熟悉scrapy库的人能告诉我在代码中我可以检查这些参数的确切位置吗？

浏览 12提问于2019-03-14得票数 0

1回答

正如我所期望的，它应该从起始页收集所有项目，然后沿着"Next“分页链接('BookEnd‘类)重复，直到没有这样的链接。要使分页正常工作，我需要更改哪些内容？我是网络抓取的新手。我已经通过手动将每个页面输入到start_urls来使这个爬行器工作，但我想让它更加自动化。 #!/usr/bin/env python3 from scrapy.http import Request class TypeS

浏览 18提问于2019-09-05得票数 1

回答已采纳

1回答

使用多个/无子页刮取asp.net页面: if-else语句中的输出

、、、、

以下是文件spyder.py：from scrapy_spider.items import JobsItem yield scrapy.FormRequestVIEWSTATEENCRYPTED::attr(value)&#

浏览 3提问于2021-05-14得票数 0

回答已采纳

1回答

Python Scrapy Spider:不一致的结果

、、

我想系统地爬行这个url：，使用分页来爬行其余的页面。我当前的代码：from scrapy.linkextractors import LinkExtractor class AcercrawlerSpiderS

浏览 11提问于2016-08-08得票数 0

2回答

Scrapy爬行器不会因使用CloseSpider扩展而终止

、、、

我设置了一个Scrapy爬行器来解析xml提要，处理大约20,000条记录。} 但是，我的爬行器从不终止-我知道CONCURRENT_REQUESTS设置会影响爬行器实际终止的时间(因为它将继续处理每个并发请求)，但它只设置为默认值16，而我的爬行器将继续处理所有项以下是我运行爬行<

浏览 0提问于2017-06-15得票数 4

1回答

使用CrawlerProcess顺序运行两个爬行器时出现ReactorNotRestartable错误

、、、

我正在尝试连续运行两个爬行器，以下是我的模块的结构 class tmallSpider(scrapy.Spider): ...class jdSpider(scrapy.Spider): ...raise error.ReactorNotRestartable() twisted.internet.error.ReactorNotRestartable 当我在终端中滚动时，我看到成功地

浏览 158提问于2020-07-09得票数 0

1回答

抓取情况:项目的增量更新

、、

如果有，我只是要求Scrapy不要再爬行了。问题:我不想每次都查询数据库。我的数据库将非常大，它最终将使爬行超级慢。不可能，因为爬行URL的异步特性不会按照从种子URL接收到的顺序进行抓取。(我尝试了各种方法来使它井然有序-但这根本不可能) 有人能提出其他的想法吗？

浏览 5提问于2013-03-20得票数 3

1回答

抓取并刮起一个完整的有刮痕的网站

、、、

除了简单的分页爬行之外，我如何将爬行和抓取混为一谈呢？ yield{'Image' : image, 'Link' : link, 'Name': name, 'Price': price}1-我进口爬行器/www.vapedonia.com/\d+.*",)), callback='parse_categ

浏览 9提问于2017-09-21得票数 0

8回答

Python Scrapy错误。不再支持对多个爬行器运行'scrapy crawl‘

、

我用Scrapy Python写了一个脚本，几个月来一直运行得很好(没有变化)。最近，当我在Windows Powershell中执行脚本时，它引发了下一个错误：..。Running 'scrapy crawl' with more than one spider is no longer supported提前谢谢。

浏览 11提问于2017-02-21得票数 4

2回答

Scrapy:使用特定的python版本

、、、

我试着在我的centOs中运行scrapy。由于centos附带安装了python2.6，而scrapy需要python2.7，所以我尝试创建虚拟环境并在其中运行scrapy，但仍然出现错误(scrapyproject)[imadmin@IM03 tutorial]$ python --version(scrapyproject)[imadmin@IM03 tutoria

浏览 0提问于2014-11-04得票数 3

1回答

分页在基本网络爬行器上不起作用

、、

import scrapy name = 'best_books' allowed_domains我在scrapy中没有得到任何错误代码。Scrapy刚刚表示它已经完成了。

浏览 0提问于2021-06-03得票数 0

1回答

YellowPages蜘蛛需要帮助

、、

我想写一个蜘蛛，将爬行黄页，寻找网站有404的响应，蜘蛛工作正常，但是，分页不起作用。任何帮助都将不胜感激。提前感谢import scrapy name = 'spider'div.srp-listing'): url = listing.css('a.track-visit-website::attr(href)&#

浏览 0提问于2017-07-01得票数 0

回答已采纳

2回答

带有TOR的刮擦(Windows)

、、、

我用几个蜘蛛创建了一个Scrapy项目来爬行一些网站。现在我想用TOR：编辑1：考虑到答案1，我从安装TOR开始。在使用Windows时，我下载了TOR专家包()，并阅读了关于如何将TOR配置为中继()的章节。但是，我可以在任务管理器中看到一个新的进程被实例化了。我不知道从这里开始最好的方法是什么。

浏览 0提问于2015-08-17得票数 12

回答已采纳

2回答

使用scrapy递归地爬行站点

、、

这是我到目前为止基于编写的代码(原始代码根本不工作，所以我尝试重新构建它)from scrapy.linkextractorsimport LinkExtractorfrom scrapy.selector importHtmlXPathSelector from nettuts.items impor

浏览 2提问于2015-12-28得票数 8

1回答

遵循网站上所有页面的抓取规则

、

我写了一个简单的爬行器，我想要跟随域中的所有链接(在这个例子中是amazon.com)这是我到目前为止的代码 # -*- coding: utf-8 -*-from scrapy.linkextractorsimport LinkExtractorfrom urllib.parse import urlparsefrom scrapy.utils.response i

浏览 8提问于2020-04-14得票数 0

回答已采纳

4回答

在多个网站上使用一个Scrapy爬虫

、、

我需要创建一个用户可配置的网络蜘蛛/爬虫，我正在考虑使用Scrapy。但是，我不能硬编码域和允许的URL regex:es --这将在GUI中配置。如何(尽可能简单地)使用Scrapy创建一个爬行器或一组爬行器，其中域和允许的URL regex:es是动态可配置的？例如，我将配置写到一个文件中，然后爬行器以某种方式读取它。

浏览 2提问于2010-03-07得票数 12

回答已采纳

4回答