近日,GitHub 发布了 2018 年度机器学习和数据科学具体报告。报告显示,Python 是机器学习 repo 中最常用的语言,Numpy 是最流行的机器学习&数据科学包,最受欢迎项目的桂冠则毫无悬念地由 TensorFlow 摘取。
编程语言
GitHub 查看了「machine-learning」相关 repo 的贡献者,对这些 repo 最常用的语言进行了排序。Python 是机器学习 repo 中最常用的语言,也是 GitHub 平台上第三流行的语言。但是,并非所有机器学习 repo 都使用 Python:GitHub 上的一些常用语言也是机器学习项目的常用语言。C++、JavaScript、Java、C#、Shell 和 TypeScript 都在 GitHub 常用语言前十名中,同时也是机器学习项目常用语言前十名。Julia、R 和 Scala 仅为机器学习项目前十,但在 GitHub 平台的使用率并没有那么高。Julia 和 R 是数据科学家常用的语言,Scala 在和大数据系统(如 Apache Spark)互动时的使用率逐渐提高。
流行的机器学习和数据科学包
GitHub 从依赖图中抓取数据,计算机器学习或数据科学项目导入不同流行 Python 包的比例。上述列表展示了这些项目导入包的 top 10。
最受欢迎的机器学习项目
GitHub 还查看了 2018 年「机器学习」标签下贡献者最多的开源项目。tensorflow 是目前最受欢迎的项目,贡献者人数是第二名 scikit-learn 的 5 倍。前十名中的 explosion/spaCy 和 RasaHQ/rasa_nlu 项目聚焦于自然语言处理问题,CMU-Perceptual-Computing-Lab/openpose、thtrieu/darkflow、ageitgey/face_recognition 和 tesseract-ocr/tesseract 聚焦于图像处理问题。Julia 语言源代码也是 2018 年贡献者最多的项目之一。
加米谷大数据www.dtinone.com
领取专属 10元无门槛券
私享最新 技术干货