我们试图用大数据分析的方法来看看是怎么样的一个群体在知乎上面找对象。
知乎上关于择偶标准问题众多
数据爬取
我们这次选择的问题是一个相亲问题中最大的一个:
坐拥7万+关注量以及1500万+浏览量。
按照惯例,获得问题id,逐步爬取每个答案。
由于知乎提供的用户性别不够准确,比如很多女生用男性账号,我们结合回答内容会适当修改知乎提供的性别结果。
然后,我们根据回答内容,具体分析得到用户的身高,体重以及年龄。
分析结果
这次爬虫一共获得29965个回答;
去除回答字数少于30的无效答案,一共获得26366个有效回答。
其中匿名用户占据大半,剩下男生女生数目差不多:
我们一共获得了11680条年龄数据,分布如下:
可以看出来这是一个高斯分布,18-20岁以及30-48岁的人数占少数。20-30岁为主力军,其中年龄最多的三个是24,25,26,可谓是人生的最黄金年龄。
我们获得平均年龄为25.5岁,大家都很年轻啊!
我们也获得了大家的身高分布:
这个身高并没有一个明显的高斯,或者两个高斯分布累加的现象,我们下一步会将匿名用户的回答仔细分析来获取其有效性别,从而获得男生女生的身高数据,希望可以获得两个独立高斯分布。
关于知乎上这个择偶标准数据分析,我们会后续再出一篇文章,到时候代码也会在github上面公布。
参考代码:
https://github.com/leeyoshinari/soulmate
本文分享自 Python与机器学习之路 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!