编译 | 小韩
来源 | analyticsvidhya.com
您是否有时侯觉得机器学习内容太广泛而无法紧跟脚步?当然会有这种感觉。下面是去年自然语言处理(NLP)的主要发展方向:
https://github.com/zihangdai/xlnet
我们首先从NLP开始。它是目前机器学习领域最热门的领域。如果你认为2018年是重要的一年(确实是这样),那么2019年就更进一步了。
目前最先进的NLP框架是XLNet。它已经风靡NLP和机器学习社区。XLNet的核心是Transformer-XL。开发人员已经发布了一个预训练模型帮助您开始使用XLNet。
到目前为止,XLNet在20个NLP任务上的表现优于谷歌的BERT,并在18个类似任务中取得了优异成绩。下面是一些流行NLP基准测试的结果:
下面是文本分类结果:
XLNet确实是一个非常好的模型。你可以在这里(https://arxiv.org/abs/1906.08237)阅读完整的论文。
https://github.com/graykode/xlnet-Pytorch
你想知道怎样实现XLNet吗?不要犹豫,这个存储库可以让你立即实现。
如果您很熟悉NLP的特点,那么理解起来就非常容易。但是,如果您刚熟悉这个领域,请花一些时间阅读上面的论文然后进行尝试。
开发人员在Google Colab(https://colab.research.google.com/github/graykode/xlnet-Pytorch/blob/master/XLNet.ipynb)中提供了完整的代码,所以您可以免费使用它的GPU资源!这是一个你绝对不能错过的框架。
https://github.com/google-research/football
我是一个足球迷,所以这个存储库的标题引起了我的注意。谷歌的研究和足球,他们有什么关系吗?
好吧,这个“存储库包含一个基于开源游戏Gameplay Football的强化学习环境”。这个环境是专为Google Research团队的研究目的而创建。下面是环境中生成的一些场景:
google_research_football-rl
代理人经过训练,可以在基于物理的3D模拟器中进行足球比赛。在过去的几年里,我已经看到了一些强化学习环境,但是这个环境可以解决问题。
如果你是一个足球或强化学习爱好者(或两者兼而有之!)可以阅读它的论文(https://github.com/google-research/football/blob/master/paper.pdf)。
https://github.com/clovaai/CRAFT-pytorch
这是一个诱人的想法。CRAFT代表文本检测的字符区域意识。如果您对计算机视觉感兴趣,那就应该阅读它的论文。看下面的图:
你想知道算法是怎样实现的吗?CRAFT通过检测图像中每个字符来检测文本区域。文本的边界框呢?这是通过简单的在二元图上找到最小边界的矩形而获得的。
如果你熟悉对象检测的概念,你会很快掌握CRAFT。这个存储库包含了预训练模型,因此您不需要重新编写代码。
你可以在论文(https://arxiv.org/abs/1904.01941)中找到更多的细节和解释。
https://github.com/open-mmlab/mmaction
您曾经编辑过视频吗?这是一个非常具有挑战性但也很有益的经历。想象一下我们可以从视频中做的大量事情并从视频中提取。
如何理解在特定视频帧中执行的操作?这就是MMAction存储库的功能。它是一个“基于PyTorch的动作理解的开源工具箱”。根据存储库,MMAction可以执行以下任务:
MMAction的开发人员还提供了处理不同类型视频数据集的工具。存储库包含了一些常规的步骤,可以帮助您启动和运行它。
MMAction的入门指南:https://github.com/open-mmlab/mmaction/blob/master/GETTING_STARTED.md。
https://github.com/allegroai/trains
数据科学家技能中最重要但又容被忽视的是软件工程。这是工作的重要组成部分。了解如何构建模型非常重要,但了解项目软件方面同样重要。
TRAINS“记录并管理大量的深度学习研究工作,并且几乎没有集成成本”。
关于TRAINS(还有其他)的最好的部分是它免费并且开源。您只需两行代码即可将TRAINS完全集成到您的环境中。它目前与PyTorch,TensorFlow和Keras集成,并且还支持Jupyter notebooks。
开发人员设置了一个演示服务器(https://demoapp.trainsai.io/)。您可以在那里使用TRAINS测试您的代码。
我这个月的选择肯定是XLNet。它为NLP科学家们提供了无限的机会。只需要注意一点,它需要强大的计算能力。
在相关领域中,NLP刚刚开始。但是它正以惊人的速度发展,我可以很容易地预测今年会有更多的事情发生。如果您还没有开始了解,请尽快学习它。
还有哪些机器学习GitHub存储库没有包含在这个列表中?你喜欢哪个存储库?可以在留言区留言讨论。 原文链接: https://www.analyticsvidhya.com/blog/2019/07/6-powerful-open-source-machine-learning-github-repositories-data-scientists/