Hello,亲们,我是你们最最最可爱并且善良和智慧聚集一身的美女子,每次当小编要写文章的时候,就默默的注视着外面的天空,看天空上的白云飘过,我老是在想,有没有这么一个人,同时和我一起注视着同一片天空,因为看着天空可以放空思绪,让所有的烦恼都随风而去,飘向天空。好了,今天这个废话说的有点多,开始正文吧!
爬虫:python27 +requests+json+bs4+time
分析工具: ELK套件
开发工具:pycharm
一小时爬取百万知乎用户信息的Python神器曝光
爬取了知乎部分的用户数据信息。
1.性别分布
0 绿色代表的是男性 ^ . ^ ——1代表的是女性———— -1 性别不确定
可见知乎的用户男性颇多。
2.粉丝最多的top30
粉丝最多的前三十名:依次是张佳玮、李开复、黄继新等等,去知乎上查这些人,也差不多这个排名,说明爬取的数据具有一定的说服力。
3.写文章最多的top30
爬虫架构图如下:
选择一个活跃的用户(比如李开复)的url作为入口url.并将已爬取的url存在set中。
抓取内容,并解析该用户的关注的用户的列表url,添加这些url到另一个set中,并用已爬取的url作为过滤。
解析该用户的个人信息,并存取到本地磁盘。
logstash取实时的获取本地磁盘的用户数据,并给elsticsearch
kibana和elasticsearch配合,将数据转换成用户友好的可视化图形。
爬取一个url:
解析内容:
存本地文件:
代码说明:
需要修改获取requests请求头的authorization。
需要修改你的文件存储路径。
源码下载:https://github.com/forezp/ZhihuSpiderMan,记得star哦!
打开chorme,打开https://www.zhihu.com/,
登陆,首页随便找个用户,进入他的个人主页,F12(或鼠标右键,点检查)
点击关注,刷新页面,见图:
可增加线程池,提高爬虫效率
存储url的时候我才用的set(),并且采用缓存策略,最多只存2000个url,防止内存不够,其实可以存在redis中。
存储爬取后的用户我说采取的是本地文件的方式,更好的方式应该是存在mongodb中。
对爬取的用户应该有一个信息的过滤,比如用户的粉丝数需要大与100或者参与话题数大于10等才存储。防止抓取了过多的僵尸用户。
关于elk的套件安装就不讨论了,具体见官网就行了。网站:https://www.elastic.co/
另外logstash的配置文件如下:
从爬取的用户数据可分析的地方很多,比如地域、学历、年龄等等,我就不一一列举了。
另外,我觉得爬虫是一件非常有意思的事情,在这个内容消费升级的年代,如何在广阔的互联网的数据海洋中挖掘有价值的数据,是一件值得思考和需不断践行的事情。
小编的文章写完了,大家看完文章有没有感觉开心,小编本身就是以开心为出发点,不知道大家有没有看得很开心,如果看的开心的话,能不能给小编点点关注?小编辛苦的码字确实也是非常的不容易,就是只希望我的努力成果能被大家所看到,最后祝大家福运满满健康百岁!
领取专属 10元无门槛券
私享最新 技术干货