编译:童童
出品:ATYUN订阅号
上图:GitHub马克杯。图片来源:GitHub
在 GitHub 2018 年的 Octoverse 报告中,机器学习和数据科学是 GitHub 上的热门话题。于是,GitHub 决定更加深入地研究一下,机器学习和数据科学在该平台究竟是怎样的情况。
GitHub 提取了 2018 年 1 月 1 日到 2018 年 12 月 31 日之间的贡献数据。这些贡献可能包括推送代码、发起话题或提取请求、评论问题或提取请求,以及审查拉取请求。对于大多数导入的程序包,GitHub 使用了从依赖关系图中获得的数据,其中包括所有公共存储库和已选择加入依赖关系图的所有私有存储库。
上图:GitHub上机器学习项目中最流行的编程语言。 图片来源:GitHub
GitHub 以使用“机器学习”主题标记的存储库的贡献者为依据,对存储库中最常见的主要编程语言进行了排名。结果显示,Python 是机器学习库中最常用的语言,也是 GitHub 上第三种最常用的语言。然而,并非所有机器学习项目都使用 Python。GitHub 上还有其他一些最常见的机器学习通用语言,如 C ++、JavaScript、Java、C#、Julia、Shell、R、TypeScript和Scala。
上图:GitHub上最受欢迎的机器学习工具包。 图片来源:GitHub
遥遥领先的是Numpy,一个支持多维数据数学运算的工具包,是导入最多的工具包,GitHub上近四分之三的机器学习和数据科学项目使用此包。
接下来导入最常见的三个工具包是Scipy,一个用于科学计算的软件;pandas,一个用于管理数据集的工具包,以及可视化库matplotlib,都在超过 40% 的机器学习和数据科学项目中使用;Scikit-learn是一种流行的机器学习工具包,包含大量机器学习算法的实现,近 40% 的项目使用此包。
上图:GitHub上最受欢迎的机器学习项目。 图片来源:GitHub
那么关于最受欢迎的开源机器学习项目呢? Tensorflow,是迄今为止最受欢迎的机器学习项目,其次第二大受欢迎项目scikit-learn和排名第三和第九的explosion/spaCy和 RasaHQ / rasa_nlu 是两个专注于自然语言处理问题的项目。另外四个项目,CMU-Perceptual-Computing-Lab / openpose,thtrieu / darkflow,ageitgey / face_recognition 和 tesseract-ocr / tesseract 则专注于图像处理。
看完了就留下一个喜欢再走吧~
领取专属 10元无门槛券
私享最新 技术干货