前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >爬虫CrawlSpider原理

爬虫CrawlSpider原理

原创
作者头像
taobao01221
发布2023-03-30 09:05:09
2410
发布2023-03-30 09:05:09
举报
文章被收录于专栏:爬虫软件的使用方法

提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法?

方法一:基于Scrapy框架中的Spider的递归爬去进行实现的(Request模块回调)

方法二:基于CrawlSpider的自动爬去进行实现(更加简洁和高效)

一、简单介绍CrawlSpider

  CrawlSpider其实是Spider的一个子类,除了继承到Spider的特性和功能外,还派生除了其自己独有的更加强大的特性和功能。其中最显著的功能就是”LinkExtractors链接提取器“。Spider是所有爬虫的基类,其设计原则只是为了爬取start_url列表中网页,而从爬取到的网页中提取出的url进行继续的爬取工作使用CrawlSpider更合适。

二、使用

  1.创建scrapy工程(cmd切换到要创建项目的文件夹下执行):scrapy startproject projectName (如:scrapy startproject crawlPro)

2.创建爬虫文件(cmd切换到创建的项目下执行):scrapy genspider -t crawl spiderName www.xxx.com (如:scrapy genspider -t crawl crawlDemo www.qiushibaike.com)

–此指令对比以前的指令多了 “-t crawl”,表示创建的爬虫文件是基于CrawlSpider这个类的,而不再是Spider这个基类。

3.启动爬虫文件(cmd基于步骤二的路径执行):scrapy crawl crawlDemo (启动的一定是name对应的值,如果爬虫文件与name的值不一致,任然以name的值进行启动)

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档