1. 手机APP数据----写在前面
继续练习pyspider的使用,最近搜索了一些这个框架的一些使用技巧,发现文档竟然挺难理解的,不过使用起来暂时没有障碍,估摸着,要在写个5篇左右关于这个框架的教程。今天教程中增加了图片的处理,你可以重点学习一下。
2. 手机APP数据----页面分析
咱要爬取的这个网站我看了一下,有大概20000页,每页数据是9个,数据量大概在180000左右,可以抓取下来,后面做数据分析使用,也可以练习优化数据库。
网站基本没有反爬措施,上去爬就可以,略微控制一下并发,毕竟不要给别人服务器太大的压力。
页面经过分析之后,可以看到它是基于URL进行的分页,这就简单了,我们先通过首页获取总页码,然后批量生成所有页码即可
获取总页码的代码
然后copy一段官方中文翻译,过来,时刻提醒自己
分页数据已经添加到待爬取队列中去了,下面开始分析爬取到的数据,这个在
detail_page
函数实现
数据已经集中返回,我们重写 on_result来保存数据到 mongodb中,在编写以前,先把链接mongodb的相关内容编写完毕
数据存储
获取到的数据,如下表所示。到此为止,咱已经完成大部分的工作了,最后把图片下载完善一下,就收工啦!
3. 手机APP数据----图片存储
图片下载,其实就是保存网络图片到一个地址即可
到此为止,任务完成,保存之后,调整爬虫的抓取速度,点击run,数据跑起来~~~~
领取专属 10元无门槛券
私享最新 技术干货