又到了周末了,不好意思,昨天(周六)因为种种不可抗力,没能写推文,还请见谅。
回到正文,上个星期看完了虎扑的妹子,今天来看斗鱼的妹子。嘿嘿嘿
实验环境
Windows10 x64
编辑器
Sublime Text 3
可能用到第三方模块
requests,json,jsonpath
无意看到斗鱼鱼吧,就想着如何把妹子发的帖子的图片给趴下来
首先对手机斗鱼客户端,进行抓包,发现帖子实际上都来自下图的这个链接
打开图片url,刚好是和客户端里面看到的一致
好了,开始进行逻辑分析
过程:
1、首先要获取所有女性id的昵称
2、根据昵称来获取该帖子的真实地址
3、获取帖子图片的url
4、多线程下载图片,更快
模拟客户端发送请求,注意时间戳
筛选女性,发现关键字sex=2即可,采用jsonpath,不会用的可以查查
分析帖子可能会没有图片,加上判断,并把图片链接放入队列,进行爬取
分析多线程,注意图片命名,所有我设置了全局参数n,以数字来命名,还可以统计图片数
创建线程
多线程请求,注意阻塞,一定要加上,否则程序会一直等新图片链接进来
下载完成,倒杯茶慢慢欣赏
注意:客户端抓包有问题的可交流
不要请求过快,否则斗鱼可能会封ip,
测试了下爬取最多向下滑一百下,差不多女性用户发帖图片有1200张
其实和上周的爬虫大同小异,唯一不同点就是用了多线程,下载图片超级快,想更快,将线程数增加到你想的数字即可。
声明:本文章仅供技术交流,请勿商业使用,照片如有侵权,请联系本公众号删除。
领取专属 10元无门槛券
私享最新 技术干货