开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Scrapy: CrawlSpider忽略在init中设置的规则

Scrapy是一个用于爬取网站数据的Python框架，它提供了强大的工具和库来简化爬虫的开发过程。CrawlSpider是Scrapy框架中的一个Spider类，它是基于规则的爬虫，可以通过定义规则来指定爬取的链接和处理的方式。

然而，CrawlSpider在初始化（init）方法中设置的规则会被忽略。这是因为CrawlSpider在初始化时会自动生成规则，它会根据start_urls和rules属性来生成爬取链接的规则。因此，在init方法中设置的规则不会被CrawlSpider使用。

为了解决这个问题，可以通过重写CrawlSpider的rules属性来自定义规则。在子类中重写rules属性，可以手动指定要爬取的链接和处理方式。例如：

from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor

class MySpider(CrawlSpider):
    name = 'myspider'
    start_urls = ['http://example.com']
    
    rules = (
        Rule(LinkExtractor(allow=r'/page/'), callback='parse_page', follow=True),
    )
    
    def parse_page(self, response):
        # 处理页面数据的回调函数
        pass

在上述示例中，我们重写了CrawlSpider的rules属性，并指定了一个规则，即匹配以"/page/"开头的链接，并使用parse_page方法来处理页面数据。

推荐的腾讯云相关产品：腾讯云服务器（CVM）、腾讯云容器服务（TKE）、腾讯云数据库（TencentDB）等。你可以通过腾讯云官方网站（https://cloud.tencent.com/）了解更多关于这些产品的详细信息和使用指南。

相关搜索:Scrapy未执行CrawlSpider的所有规则在Scrapy的Crawlspider中，有没有办法在锚标签中获取文本？在scrapy文件中设置useragent 如何忽略标准中的eslint规则在phpmd中设置规则的例外 __init__方法中的属性设置器？在vim中取消设置忽略？Python中来自__init__的调用设置器在Scrapy中，如何设置每个url的时间限制？在类外设置scrapy的起始urls mypy忽略常规方法中的错误，但在__init__中引发错误 Firestore权限规则忽略父集合中的角色简单规则:使用构造器在POJO中设置规则名称在Yii中设置数组输入字段的规则 @在Spring Boot中忽略Elasticsearch的设置注释在LoadTestShape的__init__中访问CLI 在自己的定义中运行__init__如何在Scrapy的"yield“中设置异常？在__init__设置一个对象的超类？Return this：( __init__方法的参数，在__init__方法中创建的属性的名称)

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Scrapy框架-CrawlSpider

它是Spider的派生类，Spider类的设计原则是只爬取start_url列表中的网页，而CrawlSpider类定义了一些规则(rule)来提供跟进link的方便的机制，从爬取的网页中获取link并继续爬取的工作更适合

02

爬虫课堂（二十八）|Spider和CrawlSpider的源码分析

我在爬虫课堂（二十五）|使用CrawlSpider、LinkExtractors、Rule进行全站爬取章节中说将对CrawlSpider的源码进行一个讲解，这篇文章就是来还账的，你们如果觉得好请点个赞。一、Spider源码分析在对CrawlSpider进行源码分析之前，先对Spider源码进行一个分析。 1.1、Spider介绍及主要函数讲解 Spider类定义了如何爬取某个（或某些）网站。包括了爬取的动作（是否跟进链接）以及如何从网页的内容中提取结构化数据（提取Item）。 Spider就是定义爬取的

08

三、scrapy后续 LinkExtractorsrules Logging发送POST请求内置设置参考手册

CrawlSpiders 通过下面的命令可以快速创建 CrawlSpider模板的代码： scrapy genspider -t crawl tencent tencent.com 我们通过正则表达式，制作了新的url作为Request请求参数，现在我们可以用这个... class scrapy.spiders.CrawlSpider 它是Spider的派生类，Spider类的设计原则是只爬取start_url列表中的网页，而CrawlSpider类定义了一些规则(rule)来提供跟进link的方便的机制

04

python爬虫入门（八）Scrapy框架之CrawlSpider类

CrawlSpider类通过下面的命令可以快速创建 CrawlSpider模板的代码： scrapy genspider -t crawl tencent tencent.com CrawSpider是Spider的派生类，Spider类的设计原则是只爬取start_url列表中的网页，而CrawlSpider类定义了一些规则(rule)来提供跟进link的方便的机制，从爬取的网页中获取link并继续爬取的工作更适合。 CrawSpider源码详细解析 class CrawlSpider(Spider)

07

Python:CrawlSpiders

上一个案例中，我们通过正则表达式，制作了新的url作为Request请求参数，现在我们可以换个花样...

03

Scrapy框架中crawlSpider的使用——爬取内容写进MySQL和拉勾网案例

Scrapy框架中分两类爬虫，Spider类和CrawlSpider类。该案例采用的是CrawlSpider类实现爬虫进行全站抓取。

06

Scrapy爬取自己的博客内容

根据给定的文章内容，撰写摘要总结。

07

Scrapy 框架（二）数据的持久化

执行：scrapy genspider -t crawl read www.dushu.com

02

Scrapy框架的使用之Scrapy通用爬虫

通过Scrapy，我们可以轻松地完成一个站点爬虫的编写。但如果抓取的站点量非常大，比如爬取各大媒体的新闻信息，多个Spider则可能包含很多重复代码。如果我们将各个站点的Spider的公共部分保留下来，不同的部分提取出来作为单独的配置，如爬取规则、页面解析方式等抽离出来做成一个配置文件，那么我们在新增一个爬虫的时候，只需要实现这些网站的爬取规则和提取规则即可。本节我们就来探究一下Scrapy通用爬虫的实现方法。一、CrawlSpider 在实现通用爬虫之前，我们需要先了解一下CrawlSpider

06

scrapy爬虫标准流程

一般我们一个小的爬虫项目，比如爬取一些文章等，直接用python的requests库，配合re模块就可以很快的完成。但是对于一些大规模的爬取，我们需要实现多线程、异步io，数据库连接等操作，自己从头写起会有些麻烦。这时可以用scrapy这个爬虫框架。

04

爬虫课堂（二十五）|使用CrawlSpider、LinkExtractors、Rule进行全站爬取

在爬虫课堂（二十二）|使用LinkExtractor提取链接中讲解了LinkExtractor的使用，本章节来讲解使用CrawlSpider+LinkExtractor+Rule进行全站爬取。一、CrawlSpider介绍 Scrapy框架中分两类爬虫，Spider类和CrawlSpider类。Spider类的使用已经讲解了很多，但是如果想爬取某个网站的全站信息的话，CrawlSpider类是个非常不错的选择。CrawlSpider继承于Spider类，CrawlSpider是爬取那些具有一定规则网站

07

外行学 Python 爬虫第十篇爬虫框架Scrapy

前面几个章节利用 python 的基础库实现网络数据的获取、解构以及存储，同时也完成了简单的数据读取操作。在这个过程中使用了其他人完成的功能库来加快我们的爬虫实现过程，对于爬虫也有相应的 python 框架供我们使用「不重复造轮子是程序员的一大特点」，当我们了解爬虫的实现过程以后就可以尝试使用框架来完成自己的爬虫，加快开发速度。

03

scrapy0700:深度爬虫scrapy深度爬虫

爬虫程序，主要是用与数据采集处理的一种网络程序，在操作过程中针对指定的url地址进行数据请求并根据需要采集数据，但是在实际项目开发过程中，经常会遇到目标url地址数量不明确的情况，如之前的章节中提到的智联招聘项目，不同的岗位搜索到的岗位数量不一定一致，也就意味着每个工作搜索到的工作岗位列表页面的数量不一定一致，爬虫工程师工作可能搜索到了10页，Django工作有可能都索到了25页数据，那么针对这样的数据要全部进行爬取，应该怎么处理呢？答案就是：深度爬虫

02

Scrapy笔记四自动爬取网页之使用CrawlSpider

学习自:http://blog.csdn.net/u012150179/article/details/34913315

01

普通爬虫有啥意思，我写了个通用Scrapy爬虫

除了钱，大家还比较喜欢什么？当然是全能、万能和通用的人或事物啦，例如：全能、什么都会的员工、万能钥匙、通用爬虫等等。今天我们学习Scrapy通用爬虫，利用Scrapy通用爬虫来获取美食杰网站[1]。

01

scrapy框架

scrapy genspider 应用名称爬取网页的起始url （例如：scrapy genspider qiubai www.qiushibaike.com）

05

爬虫之scrapy框架

何为框架，就相当于一个封装了很多功能的结构体，它帮我们把主要的结构给搭建好了，我们只需往骨架里添加内容就行。scrapy框架是一个为了爬取网站数据，提取数据的框架，我们熟知爬虫总共有四大部分，请求、响应、解析、存储，scrapy框架都已经搭建好了。scrapy是基于twisted框架开发而来，twisted是一个流行的事件驱动的python网络框架，scrapy使用了一种非阻塞的代码实现并发的，结构如下：

02

Python:阳光热线问政平台爬虫

爬取投诉帖子的编号、帖子的url、帖子的标题，和帖子里的内容。 items.py import scrapy class DongguanItem(scrapy.Item): # 每个帖子的标题 title = scrapy.Field() # 每个帖子的编号 number = scrapy.Field() # 每个帖子的文字内容 content = scrapy.Field() # 每个帖子的url url = scrapy.Field()

03

自学Python十二战斗吧Scrapy！

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

03

Python爬虫项目--爬取链家热门城市

本次实战是利用爬虫爬取链家的新房(声明: 内容仅用于学习交流, 请勿用作商业用途)

01

Python爬虫之scrapy_redis原理分析并实现断点续爬以及分布式爬虫

但是在settings.py中多了以下内容,这几行表示scrapy_redis中重新实现的了去重的类，以及调度器，并且使用RedisPipeline管道类

02

Python:Resquest/Response

Request Request 部分源码： # 部分代码 class Request(object_ref): def __init__(self, url, callback=None, method='GET', headers=None, body=None, cookies=None, meta=None, encoding='utf-8', priority=0, dont_filter=False, errback=

01

python爬虫----（4. scrapy框架，官方文档以及例子）

官方文档： http://doc.scrapy.org/en/latest/ github例子： https://github.com/search?utf8=%E2%9C%93&q=sc

03

python scrapy 实战简书网站

1:创建项目 2：创建爬虫 3：编写start.py文件用于运行爬虫程序 # -*- coding:utf-8 -*- #作者: baikai #创建时间: 2018/12/14 14:09

01

scrapy分布式浅谈+京东示例

Github：https://github.com/xbhog/scrapyRedis

00

007：Scrapy核心架构和高级运用

Scrapy核心架构和其组件的功能 Scrapy的工作流 Scrapy的中文输出储存介绍CrawSpider 编写了一个爬虫实战来进行我们的mysql数据库操作

02

Scrapy的CrawlSpider用法

rules是一组Rule对象。每条Rule定义了抓取网页的方式。如果多条规则匹配到同一链接，根据定义规则的顺序，使用第一个链接。

03

爬虫系列（13）Scrapy 框架-CrawlSpider、图片管道以及下载中间件Middleware。

首先在说下Spider，它是所有爬虫的基类，而CrawSpiders就是Spider的派生类。对于设计原则是只爬取start_url列表中的网页，而从爬取的网页中获取link并继续爬取的工作CrawlSpider类更适合。

02

Python爬虫 --- 2.5 Scrapy之汽车之家爬虫实践

Scrapy框架为文件和图片的下载专门提供了两个Item Pipeline 它们分别是：

01

Python Scrapy分布式爬虫

可以输入多个来观察多进程的效果。。打开了爬虫之后你会发现爬虫处于等待爬取的状态，是因为list此时为空。所以需要在redis控制台中添加启动地址,这样就可以愉快的看到所有的爬虫都动起来啦。

02

Python网络爬虫（七）- 深度爬虫CrawlSpider1.深度爬虫CrawlSpider2.链接提取：LinkExtractor3.爬取规则：rules4.如何在pycharm中直接运行爬虫5.

目录： Python网络爬虫（一）- 入门基础 Python网络爬虫（二）- urllib爬虫案例 Python网络爬虫（三）- 爬虫进阶 Python网络爬虫（四）- XPath Python网络爬虫（五）- Requests和Beautiful Soup Python网络爬虫（六）- Scrapy框架 Python网络爬虫（七）- 深度爬虫CrawlSpider Python网络爬虫（八） - 利用有道词典实现一个简单翻译程序深度爬虫之前推荐一个简单实用的库fake-useragent，可以伪装

02

21天打造分布式爬虫-Crawl爬取小程序社区（八）

8.1.Crawl的用法实战新建项目 scrapy startproject wxapp scrapy genspider -t crawl wxapp_spider "wxapp-union.com" wxapp_spider.py # -*- coding: utf-8 -*- import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule from

04

scrapy全站爬取

需求：爬取站长素材的高清图片的爬取https://sc.chinaz.com/tupian/

01

Amazon图片下载器：利用Scrapy库完成图像下载任务

本文介绍了如何使用Python的Scrapy库编写一个简单的爬虫程序，实现从Amazon网站下载商品图片的功能。Scrapy是一个强大的爬虫框架，提供了许多方便的特性，如选择器、管道、中间件、代理等。本文将重点介绍如何使用Scrapy的图片管道和代理中间件，以提高爬虫的效率和稳定性。

01

Python爬虫之crawlspider类的使用

对应的crawlspider就可以实现上述需求，能够匹配满足条件的url地址，组装成Reuqest对象后自动发送给引擎，同时能够指定callback函数

01

python爬虫–scrapy（再探）

— 图片：xpath解析出图片src的属性值。单独的对图片地址发起请求获取图片二进制类型的数据。

02

Scrapy Crawlspider的详解与项目实战

回顾上一篇文章，我们大多时间都是在寻找下一页的url地址或者是内容的url地址上面，我们的大体思路是这样的：

02

21天打造分布式爬虫-简书整站爬取（十）

10.1.简书整站爬虫创建项目 scrapy startproject jianshu scrapy genspider -t crawl jianshu_spider "jianshu.com" jianshu_spider.py # -*- coding: utf-8 -*- import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule from j

02

Python爬虫 --- 2.5 Scrapy之汽车之家爬虫实践

原文链接：https://www.fkomm.cn/article/2018/8/7/32.html

00

python crawlspider详解

scrapy genspider -t crawl spider名称 www.xxxx.com LinkExtractors: allow:必须要匹配这个正则表达式的URL才会被提取，如果没有给出，或为空，匹配所有。(str or list) deny:allow的反面，如果没有给出或空，不排除所有。优先级高于allow。(str or list) allow_domains :(str or list) deny_domains :(str or list) deny_extensions:(list):提取链接时，忽略的扩展名列表。 restrict_xpaths ：从哪些XPATH提取 tags:(str or list):默认为('a','area') attrs :(list):默认为('href') unique :boolean 重复过滤 Rule: callback:从link_extractor中每获取到链接时，参数所指定的值作为回调函数，该回调函数接受一个response作为其第一个参数。注意：当编写爬虫规则时，避免使用parse作为回调函数。由于CrawlSpider使用parse方法来实现其逻辑，如果覆盖了 parse方法，crawl spider将会运行失败。 follow:是否跟进。如果callback为None，follow 默认设置为True ，否则默认为False。 process_links：指定该spider中哪个的函数将会被调用，从link_extractor中获取到链接列表时将会调用该函数。该方法主要用来过滤。 process_request：指定该spider中哪个的函数将会被调用，该规则提取到每个request时都会调用该函数。 (用来过滤request)

02

Python之CrawlSpider

CrawlSpider可以定义规则，再解析html内容的时候，可以根据链接规则提取出指定的链接，然后再向这些链接发送请求所以，如果有需要跟进链接的需求，意思就是爬取了网页之后，需要提取链接再次爬取，使用CrawlSpider是非常合适的

01

CrawlSpider爬虫教程

在上一个糗事百科的爬虫案例中。我们是自己在解析完整个页面后获取下一页的url，然后重新发送一个请求。有时候我们想要这样做，只要满足某个条件的url，都给我进行爬取。那么这时候我们就可以通过CrawlSpider来帮我们完成了。CrawlSpider继承自Spider，只不过是在之前的基础之上增加了新的功能，可以定义爬取的url的规则，以后scrapy碰到满足条件的url都进行爬取，而不用手动的yield Request。

04

Scrapy入门案例——腾讯招聘（CrawlSpider升级）

需求和上次一样，只是职位信息和详情内容分开保存到不同的文件，并且获取下一页和详情页的链接方式有改动。

01

《Learning Scrapy》（中文版）第11章 Scrapyd分布式抓取和实时分析

我们已经学了很多东西。我们先学习了两种基础的网络技术，HTML和XPath，然后我们学习了使用Scrapy抓取复杂的网站。接着，我们深入学习了Scrapy的设置，然后又进一步深入学习了Scrapy和Python的内部架构和Twisted引擎的异步特征。在上一章中，我们学习了Scrapy的性能和以及处理复杂的问题以提高性能。

02

Scrapy-笔记一入门项目爬虫抓取w3c网站

学习自:http://blog.csdn.net/u012150179/article/details/32911511

01

Python Scrapy框架之CrawlSpider爬虫

一般写爬虫是自己在解析完整个页面后获取下一页的url，然后重新发送一个请求。有时候我们想要这样做，只要满足某个条件的url，都给我进行爬取。那么这时候我们就可以通过CrawlSpider来帮我们完成了。CrawlSpider继承自Spider，只不过是在之前的基础之上增加了新的功能，可以定义爬取的url的规则，以后scrapy碰到满足条件的url都进行爬取，而不用手动的yield Request。

01

CrawlSpider（规则爬虫）和Spider版爬虫

1.规则爬虫--scrapy genspider -t crawl Question wz.sun0769.com

01

爬虫框架Scrapy(二)

There are two ways of spreading light: to be the candle or the mirror that reflects it.

01

学会运用爬虫框架 Scrapy (三)

上篇文章介绍 Scrapy 框架爬取网站的基本用法。但是爬虫程序比较粗糙，很多细节还需打磨。本文主要是讲解 Scrapy 一些小技巧，能让爬虫程序更加完善。

03

scrapy 爬取网上租房信息

为了分析一线城市的房价在工资的占比，我用Python分别爬取了自如以及拉勾的数据。（见公众号「Crossin的编程教室」今天第1条推送）

04

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭