本次将为大家简单分享介绍几个GitHub上数据分析相关的项目库,包括图像处理项目库、数据集项目库以及学习资源项目库。
预计阅读时长:7分钟
首先介绍一下GitHub:GitHub是一个通过Git进行版本控制的软件源代码托管服务托管平台,于2008年4月正式上线,截止上个月已经成立十周年。目前,GitHub上有超过两千七百万用户以及超过八千万代码库,是一个大家学习、分享和创建软件的社区。
在GitHub,用户可以十分轻易地找到海量的开源代码并下载到本地或添加到自己的GitHub项目库中。项目库涉及的题材种类丰富,譬如比特币和众多区块链项目代码库也托管在GitHub。
除了软件开发方面的代码库,机器学习也是GitHub 上的热门话题,在machine learning的话题下有近一万七千个开源项目库(传送门:https://github.com/topics/machine-learning),从谷歌的tensorflow,到机器学习方面的scikit-learn再到微软的Cognitive Toolkit (CNTK),众多广受好评的项目,都可以找到。
下面开始本次数据分析相关的项目库的介绍:
1图像处理库
想要遮挡住合影中意外闯入的不慎闯入的陌生人?想要消除桌子上意外多出的水杯?在图像处理库这方面随缘推荐person-blocker项目库帮您实现这项功能。
person-blocker于2018年3月份发布,是基于python的图像处理代码库。person-blocker库可以自动识别图像中物体进行识别并遮挡,该功能的实现是基于Mask_RCNN库对于常见物体进行识别区分,预训练模型则使用了Microsoft COCO: Common Objects inContext数据集。下图中的实例代码实现了遮挡斑马群旁边的长颈鹿的功能。
除了长颈鹿,还有80种元素(例如,人物、鸟类、电脑、等等)也可以用这可库进行识别和遮挡,而且代码运行过程中不需要使用图形处理器(GPU),需要修图的用户考虑一下哟~
地址:https://github.com/minimaxir/person-blocker
2数据集库
想要做好数据分析,高质量的数据集也是必不可少的,紧贴时事又干净清晰的数据集,在GitHub各种项目库中也有不少,您值得拥有。本次数据集方面推荐的项目库是 fivethirtyeight。
fivethirtyeight项目库由FiveThirtyEight网站提供(传送门:http://fivethirtyeight.com)。FiveThirtyEight,又称538,是一个专注于发布舆情调查、政治、经济和体育等相关题材博客的网站,曾先后被ESPN和ABCNews收购。网站于2008年由 Nate Silver创办,命名灵感来自于美国大选中的选举团成员数目,网站初期用于发布美国总统选举的投票结果预测,后逐渐增加体育、经济生活等板块的数据分析类博客。创办人Nate Silver成功预测了2008年的美国总统选举中50个州的49个州的投票结果,在2009年被时代(Time)杂志列全球最有影响的100个人之一。
领取专属 10元无门槛券
私享最新 技术干货