前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >GitHub关于数据科学的六个强大的机器学习开源库

GitHub关于数据科学的六个强大的机器学习开源库

作者头像
磐创AI
发布2019-07-17 18:11:47
7240
发布2019-07-17 18:11:47
举报
文章被收录于专栏:磐创AI技术团队的专栏

编译 | 小韩

来源 | analyticsvidhya.com

介绍

您是否有时侯觉得机器学习内容太广泛而无法紧跟脚步?当然会有这种感觉。下面是去年自然语言处理(NLP)的主要发展方向:

  • Google’s BERT
  • OpenAI’s GPT-2
  • Google’s Transformer-XL

XLNet:The Next Big NLP Framework

https://github.com/zihangdai/xlnet

我们首先从NLP开始。它是目前机器学习领域最热门的领域。如果你认为2018年是重要的一年(确实是这样),那么2019年就更进一步了。

目前最先进的NLP框架是XLNet。它已经风靡NLP和机器学习社区。XLNet的核心是Transformer-XL。开发人员已经发布了一个预训练模型帮助您开始使用XLNet。

到目前为止,XLNet在20个NLP任务上的表现优于谷歌的BERT,并在18个类似任务中取得了优异成绩。下面是一些流行NLP基准测试的结果:

下面是文本分类结果:

XLNet确实是一个非常好的模型。你可以在这里(https://arxiv.org/abs/1906.08237)阅读完整的论文。

XLNet的PyTorch实现

https://github.com/graykode/xlnet-Pytorch

你想知道怎样实现XLNet吗?不要犹豫,这个存储库可以让你立即实现。

如果您很熟悉NLP的特点,那么理解起来就非常容易。但是,如果您刚熟悉这个领域,请花一些时间阅读上面的论文然后进行尝试。

开发人员在Google Colab(https://colab.research.google.com/github/graykode/xlnet-Pytorch/blob/master/XLNet.ipynb)中提供了完整的代码,所以您可以免费使用它的GPU资源!这是一个你绝对不能错过的框架。

Google Research Football - 独特的强化学习环境

https://github.com/google-research/football

我是一个足球迷,所以这个存储库的标题引起了我的注意。谷歌的研究和足球,他们有什么关系吗?

好吧,这个“存储库包含一个基于开源游戏Gameplay Football的强化学习环境”。这个环境是专为Google Research团队的研究目的而创建。下面是环境中生成的一些场景:

google_research_football-rl

代理人经过训练,可以在基于物理的3D模拟器中进行足球比赛。在过去的几年里,我已经看到了一些强化学习环境,但是这个环境可以解决问题。

如果你是一个足球或强化学习爱好者(或两者兼而有之!)可以阅读它的论文(https://github.com/google-research/football/blob/master/paper.pdf)。

CRAFT文本检测实现

https://github.com/clovaai/CRAFT-pytorch

这是一个诱人的想法。CRAFT代表文本检测的字符区域意识。如果您对计算机视觉感兴趣,那就应该阅读它的论文。看下面的图:

你想知道算法是怎样实现的吗?CRAFT通过检测图像中每个字符来检测文本区域。文本的边界框呢?这是通过简单的在二元图上找到最小边界的矩形而获得的。

如果你熟悉对象检测的概念,你会很快掌握CRAFT。这个存储库包含了预训练模型,因此您不需要重新编写代码。

你可以在论文(https://arxiv.org/abs/1904.01941)中找到更多的细节和解释。

MMAction - 视频动作开源工具箱

https://github.com/open-mmlab/mmaction

您曾经编辑过视频吗?这是一个非常具有挑战性但也很有益的经历。想象一下我们可以从视频中做的大量事情并从视频中提取。

如何理解在特定视频帧中执行的操作?这就是MMAction存储库的功能。它是一个“基于PyTorch的动作理解的开源工具箱”。根据存储库,MMAction可以执行以下任务:

  • 修剪视频中的动作识别
  • 未修剪视频中的时间动作检测(也称为动作定位)
  • 未修剪视频中的空间动作检测

MMAction的开发人员还提供了处理不同类型视频数据集的工具。存储库包含了一些常规的步骤,可以帮助您启动和运行它。

MMAction的入门指南:https://github.com/open-mmlab/mmaction/blob/master/GETTING_STARTED.md。

TRAINS - AI的自动实验管理和版本控制

https://github.com/allegroai/trains

数据科学家技能中最重要但又容被忽视的是软件工程。这是工作的重要组成部分。了解如何构建模型非常重要,但了解项目软件方面同样重要。

TRAINS“记录并管理大量的深度学习研究工作,并且几乎没有集成成本”。

关于TRAINS(还有其他)的最好的部分是它免费并且开源。您只需两行代码即可将TRAINS完全集成到您的环境中。它目前与PyTorch,TensorFlow和Keras集成,并且还支持Jupyter notebooks。

开发人员设置了一个演示服务器(https://demoapp.trainsai.io/)。您可以在那里使用TRAINS测试您的代码。

结束语

我这个月的选择肯定是XLNet。它为NLP科学家们提供了无限的机会。只需要注意一点,它需要强大的计算能力。

在相关领域中,NLP刚刚开始。但是它正以惊人的速度发展,我可以很容易地预测今年会有更多的事情发生。如果您还没有开始了解,请尽快学习它。

还有哪些机器学习GitHub存储库没有包含在这个列表中?你喜欢哪个存储库?可以在留言区留言讨论。 原文链接: https://www.analyticsvidhya.com/blog/2019/07/6-powerful-open-source-machine-learning-github-repositories-data-scientists/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-07-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 磐创AI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 介绍
  • XLNet:The Next Big NLP Framework
  • XLNet的PyTorch实现
  • Google Research Football - 独特的强化学习环境
  • CRAFT文本检测实现
  • MMAction - 视频动作开源工具箱
  • TRAINS - AI的自动实验管理和版本控制
  • 结束语
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档