开了新坑,如题,不解释
Scrapy 是什么
Scrapy 是一个为了爬取网站数据,提取结构性数据而编写的应用框架。可以应用在包括数据挖掘,信息处理或存储历史数据等程序中。
Scrapy 的结构
Scrapy 的结构如下:
via Architecture Overview - Scrapy 1.5.0
在 Scrapy 中数据流是这样的:
引擎从爬虫(Spider)获得初始抓取请求
引擎在 Scheduler 中安排好请求,获取下一个抓取请求
Scheduler 返回下一个抓取请求
引擎通过 Downloader 的 Middlewares 发送请求到 Downloader
完成页面下载后,Downloader 生成请求并通过 Middlewares 发送给引擎的
引擎接收来自 Downloader 的响应,通过 Spider Middlewares 发送给 Spider 处理
Spider 处理请求并返回爬取内容,向引擎提交下一个请求
引擎发送爬取内容到 Item Pipelines,然后发送处理请求到 Scheduler,获取下一个爬取请求
重复 1-8 步,直到没有新的请求
安装 Scrapy
新建 Python 虚拟环境
比如用 ,也可以用(参考文后链接:virtualenv installation instructions)
上面的命令中, 是用来折腾爬虫的项目环境名称,是要一起安装的包,如 ,。
我新建了一个叫 的环境,打开这 Python 环境的命令是:
如果你使用 ,可以在 文件里面新建 alias,并 保存生效,下次就可以用别名快捷打开这个环境了。
安装 Scrapy
通过 安装很方便
新建 scrapy 项目
进入存放项目的目录,用命令新建一个爬虫项目:
新建好以后,可以看到起名为 lyrics 的爬虫项目,生成了以下目录和文件:
对照上面介绍的 Scrapy 引擎的结构,可以大概知道每个文件的作用。
下一篇我们尝试用 Scrapy 抓取一些简单的网页内容。
Ref
Scrapy 1.5 documentation - https://docs.scrapy.org/en/latest/index.html
Scrapy爬虫框架教程(一)— Scrapy入门 - https://zhuanlan.zhihu.com/p/24669128
virtualenv installation instructions - https://virtualenv.pypa.io/en/stable/installation/
领取专属 10元无门槛券
私享最新 技术干货