前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >一日一技:为什么 Scrapy 启动 A 爬虫,B 爬虫会自动启动?

一日一技:为什么 Scrapy 启动 A 爬虫,B 爬虫会自动启动?

作者头像
青南
发布2021-09-29 15:21:00
6750
发布2021-09-29 15:21:00
举报
文章被收录于专栏:未闻Code

摄影:产品经理

大盘鸡

昨天有位同学在公众号俱乐部群问了这样一个问题:

他在一个 Scrapy 项目里面,有两个爬虫 A 和 B,他使用命令scrapy crawl B想启动 B 爬虫,但是发现 A 爬虫也自动运行了。

然后,这个同学贴上来他的爬虫代码:

看到这个代码,我就知道是怎么回事了。要解释这个现象,我们需要掌握两个知识点:

  1. Scrapy 是怎么加载爬虫的?
  2. Python 的类变量与实例变量的区别。

Scrapy 是怎么加载爬虫的?

我们知道,Scrapy 的 spiders 文件夹里面,可以定义很多个爬虫文件。只要每个爬虫文件的 name 的值不一样,那么,我们就可以使用scrapy crawl name 的值来启动特定的爬虫。

那么,Scrapy 它是怎么根据这个名字找到对应的类的呢?

实际上,在我们执行scrapy crawl xxx的时候,Scrapy 有几个主要的步骤:

  1. 首先遍历spiders 文件夹下面的所有文件,在这些文件里面,寻找继承了scrapy.Spider的类
  2. 获取每个爬虫类的name属性的值
  3. 添加到一个公共的字典里面{'name1': 爬虫类1, 'name2': '爬虫类2'}
  4. 获取scrapy crawl xxx具体要启动的那个爬虫的名字,从公共字典里面,找到这个名字对应的爬虫类
  5. 执行这个爬虫类,得到一个爬虫对象。然后调用爬虫对象的start_requests()方法

从这个过程我们可以知道,spiders 文件夹下面,每一个爬虫类都会被加载。

Python 的类属性和实例属性

在我们定义Python 类的时候,我们其实可以在类里面,所有方法的外面写代码,例如:

代码语言:javascript
复制
class Test:
    a = 1 + 1
    b = 2 + 2
    if a + b == 6:
        right = True 
    else:
        right = False
    def __init__(self):
        self.age = 100
        self.address = '上海'

大家注意这几行代码:

代码语言:javascript
复制
    a = 1 + 1
    b = 2 + 2
    if a + b == 6:
        right = True 
    else:
        right = False

他们不在任何方法里面的,这里面初始化的变量,叫做类变量或者类属性。而在__init__里面,初始化的self.ageself.address叫做实例属性。

实例属性只有在类被执行的时候,获得实例对象的时候,才会执行。而类属性,是在类被 Python 加载的时候,就会执行。大家注意下面这段代码:

Python 只是加载了这个类,并没有初始化它,但里面的 print语句已经执行了。

而当我们初始化它以后,实例属性才会执行:

什么情况叫做Python 加载了一个类呢?

例如,当你from xxx import yyy的时候,yyy这个类就被加载了。又比如你可能是使用imortlib.import_module的时候。

所以,回到这个同学的问题。之所以他其中一个爬虫的代码始终会运行,原因就在下面红色圆圈中的代码:

他把这段代码写在了所有方法之外,让他处于了类属性的区域。在这个区域里面的代码,在爬虫类被加载的时候,就会执行。

如果要解决这个问题,只需要把这段代码,放到start_requests()方法里面就可以了。

END

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-09-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 未闻Code 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Scrapy 是怎么加载爬虫的?
  • Python 的类属性和实例属性
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档