首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python爬虫新手教程:手机APP数据抓取pyspider

1. 手机APP数据----写在前面

继续练习pyspider的使用,最近搜索了一些这个框架的一些使用技巧,发现文档竟然挺难理解的,不过使用起来暂时没有障碍,估摸着,要在写个5篇左右关于这个框架的教程。今天教程中增加了图片的处理,你可以重点学习一下。

2. 手机APP数据----页面分析

咱要爬取的这个网站我看了一下,有大概20000页,每页数据是9个,数据量大概在180000左右,可以抓取下来,后面做数据分析使用,也可以练习优化数据库。

网站基本没有反爬措施,上去爬就可以,略微控制一下并发,毕竟不要给别人服务器太大的压力。

页面经过分析之后,可以看到它是基于URL进行的分页,这就简单了,我们先通过首页获取总页码,然后批量生成所有页码即可

获取总页码的代码

然后copy一段官方中文翻译,过来,时刻提醒自己

分页数据已经添加到待爬取队列中去了,下面开始分析爬取到的数据,这个在

detail_page

函数实现

数据已经集中返回,我们重写 on_result来保存数据到 mongodb中,在编写以前,先把链接mongodb的相关内容编写完毕

数据存储

获取到的数据,如下表所示。到此为止,咱已经完成大部分的工作了,最后把图片下载完善一下,就收工啦!

3. 手机APP数据----图片存储

图片下载,其实就是保存网络图片到一个地址即可

到此为止,任务完成,保存之后,调整爬虫的抓取速度,点击run,数据跑起来~~~~

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190721A0BXU300?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券