作者 | Pratyush Tripathy
来源 | codeingschool
编辑 | 代码医生团队
概观
轻松应对数据科学项目是一个令人难以置信的方法,以摆脱挑战看看GitHub上的这7个数据科学项目将改善成熟能力范围这些GitHub仓库包含来自各种数据科学领域的项目 - AI,PC愿景,设防学习等。
介绍
是否准确地说准备好在机器学习中取得下一个巨大的进步?拍摄玩具数据集并利用著名的数据科学图书馆和系统是一个不错的开端。但是如果真的需要脱离挑战,那么必须跳起来并将自己分开。
一个出色的方法是对数据科学的最新飞跃做一个承诺。需要变成计算机视觉大师吗?弄清楚最近的项目发现计算是如何工作的。关于自然语言处理(NLP)是生活中的目的的关闭机会,在那一点上,找出变压器设计的不同视角和背景。
观点是 - 始终如一地准备并愿意接受新的数据科学策略。这是业务中最快的发展领域之一,作为数据研究人员需要与之一起发展。
在这些方面,如何看待2019年8月制作的七个数据科学GitHub项目。像往常一样,一直保持空间扩展,将机器学习和强化学习等项目结合起来。
顶级数据科学GitHub项目
将这些数据科学项目分为三大类:
机器学习项目
pyforest-在一行代码中导入所有Python数据科学库
https://github.com/8080labs/pyforest
非常喜欢这个Python库。如上所述,常规数据科学库仅使用一个库 - pyforest进口。看看从图书馆的GitHub商店中获取的这个快速演示:
兴奋了吗?pyforest目前包括pandas,NumPy,matplotlib以及更多数据科学库。
只需使用pip介绍pyforest在机器上引入库就可以了。此外只需一行代码就可以导入所有着名的Python数据库:
from pyforest import *
完全没有充分利用这个,如果不熟悉该语言,应该查看Python下面的免费研讨会:
HungaBung-使用sklearn构建机器学习模型的另一种方式
https://github.com/ypeleg/HungaBunga
如何从构建的那些中选择最好的机器学习模型?如何保证特权超参数质量在起作用?这些是数据科学家需要回复的基本查询。
更重要的是,HungaBunga任务将使能够比大多数数据科学图书馆更快地得出答案。它通过所有可以想象的超参数遍历所有sklearn模型并使用交叉验证定位它们。
以下是导入所有模型(分类和回归)的方法:
from hunga_bunga import HungaBungaClassifier, HungaBungaRegressor
深度学习项目
DeepMind的EnhanceSuite强化学习(bsuite)
https://github.com/deepmind/bsuite
该组织在设防学习方面的考试显然仍然遥遥领先。作为人为推理的命运,在这个领域下了很大的赌注。
所以这里是最近的开源放电 - bsuite。这项任务是分析的集合,旨在理解强化学习代理的中心能力。
收集富有启发性和多样化的问题,以解决生产性和一般学习计算计划中的关键问题,通过在这些共同基准上的展览来集中代理人的行为。GitHub商店包含了如何在项目中使用bsuite的明确说明。可以使用以下代码安装它:
pip install git+git://github.com/deepmind/bsuite.git
DistilBERT-谷歌BERT的更轻便,更便宜的版本
https://github.com/huggingface/pytorch-transformers/tree/master/examples/distillation
现在可能已经知道了BERT。它是最突出的,并迅速转变为一种普遍接受的自然语言处理(NLP)结构之一。BERT依赖于变压器工程。
尽管如此,它伴随着一个警告。那么研究人员可以通过什么方式获取数据呢? DistilBERT!
DistilBERT是Distillated-BERT的缩写,源于众所周知的PyTorch-Transformers系统背后的群体。这是一款基于BERT设计的小巧破旧的Transformer型号。根据该集团,DistilBERT的运行速度提高了60%,同时节省了超过95%的BERT展览。
ShuffleNetSeries - 一种用于移动设备的极其高效的卷积神经网络
https://github.com/megvii-model/ShuffleNet-Series
一个计算机视觉冒险为您服务!ShuffleNet是一种计算效率非常高的卷积神经网络(CNN)架构。它主要用于具有有限计算能力的手机。
这个GitHub存储库包含以下ShuffleNet模型(是的,有多个):
RAdam-改善学习率的变化
https://github.com/LiyuanLucasLiu/RAdam
RAdam背后的开发人员在论文中看到,在深刻的学习策略中面临的联合问题是因为不幸的是,在模型准备的初期,多功能学习率发生了巨大的变化。
RAdam是Adam的另一种变体,它修正了多功能学习率的差异。
这是RAdam与Adam和SGD相比具有不同学习率(X轴是时代数)的表现:
编程项目
ggtext-改进了ggplot2的文本渲染
https://github.com/clauswilke/ggtext
这个适用于社区中的所有R用户。此外特别是每个人都使用ggplot2包(通常基本上是每个人)正常工作。
ggtext包能够为制作的图表提供丰富的内容呈现。以下是可以使用ggtext评估的一些事项:
GitHub存储库包含一些直观的示例,可以在自己的计算机上进行复制。
ggtext尚未通过CRAN提供,因此可以使用以下命令从GitHub下载并安装它:
devtools::install_github("clauswilke/ggtext")
EXTRAS
YelpData Set
https://www.yelp.com/dataset/challenge
该数据集是由公开支持的调查阶段Yelp领导的Yelp数据集挑战的一部分。它是Yelp组织,审计和客户数据的一部分,由指导和学术目的的阶段给出。
2017年,举行了第十轮Yelp数据集挑战赛,数据集包含了横跨4个国家的12个大都市区内附近组织的数据。
丰富的数据涉及4,700,000份调查,156,000个组织和200,000张图片,为多方面数据项目提供了完美的数据源。例如,正常语言准备和假设分析,照片安排和图表挖掘等是可以利用包含不同数据的数据集完成的项目的一部分。可以在JSON和SQL设计中访问该数据集。
目标:使用可用数据提供运营改进的见解。
KDD Cup
http://www.kdd.org/kdd-cup
KKD杯由知识发现和数据挖掘领域的ACM SIGKDD排除,是每年举办的主流数据挖掘和信息披露竞争。它被认为是第一个 - 因为永远存在数据科学竞争,并且可以追溯到1997年。
随着每年的另一个问题,KDD杯让数据研究人员有机会跨越各种订单交叉处理数据集。过去处理的一部分问题包括问题,例如,识别哪些创作者与类似的个人进行比较,预测主动访问者利用给定的查询和客户数据点击促销的百分比,以及改进计算机辅助检测的计算( CAD)开始时期的胸部恶性增长等。
该测试的最新版本于2017年举行,预计会员将预测通过州际收费站的流量。
目标:解决或预测每年出现的问题。
ImageNetLarge规模视觉识别挑战赛(ILSVRC)
http://www.image-net.org/challenges/LSVRC/
ILSVRC进行了令人信服的测试,以便在各地扩展项目位置和图像表征的最佳计算。每年举办一次,挑战的关键点在于图片识别和表征领域的进步与将更多数据与大量研究相结合。它同样打算评估为了通过PC愿景进行恢复和解释所取得的进步。
此测试调查计算文章识别和限制,从录音和图片,场景解析和大规模的订单。一致地,测试看到调整,例如,新图片和分类的扩展。可访问的可视资产包括超过475,000篇文章,来自Flickr和其他网络搜索工具累积的450,000多张图片。
自2010年成立以来,比赛由ImageNet举办。然而,2017年的最新版本由Kaggle举办。