作者:AARSHAY JAIN
翻译:王婷
校对:丁楠雅
本文共4700字,建议阅读10+分钟。
引言
编程是数据科学的一个组成部分。事实上,理解编程逻辑、循环和函数的人更有可能成为成功的数据科学家。但那些在学校里从未学习过编程的人怎么办?
难道他们就没办法成为一名数据科学家了吗?
近年来,随着数据科学的蓬勃发展,许多人都有兴趣进入这个领域。但对编程却一筹莫展。事实上,在我的第一份工作之前,我也是非编程联盟的成员。因此,我明白当一个你从未学过的东西在任何一步都困扰着你的时候,有多么可怕。
好消息是无论你的编程技巧如何,你都有办法成为数据科学家!有一些工具可以避免编程,并提供用户友好的GUI(图形用户界面),因此任何对算法知之甚少的人都可以简单地使用它们来构建高质量的机器学习模型。
许多公司(尤其是初创公司)最近推出了GUI驱动的数据科学工具。我尽力在本文中介绍一些重要的工具,并尽可能提供视频。
注意:所有提供的信息都是从开源信息源收集的。我们只是展示一些事实而不是观点。我们决不会尝试宣传或为任何产品/服务打广告。
以下是本次介绍的工具列表:
1. RapidMiner
链接: https://rapidminer.com/
介绍视频: https://www.youtube.com/embed/ma14K56fNAM?feature=oembed&width=500&height=750
RapidMiner(RM)最初于2006年作为一款名为Rapid-I的开源独立软件被启动。多年来,他们以RapidMiner的名字给它命名,并获得了约3500万美元的资金。该工具的旧版本(低于v6)是开源的,但最新版本会有14天的试用期并在此之后需要许可证。
RM涵盖了预测建模的整个生命周期,从数据准备到建模,最后验证和部署。GUI基于一个框图方法,与Matlab Simulink非常相似。有预定义的块用作即插即用设备。你只需要以正确的方式连接它们,就可以在没有一行代码的情况下运行各种各样的算法。最重要的是,它们允许将自定义的R和Python脚本集成到系统中。
目前的产品包括以下内容:
RM目前已经应用于汽车、银行、保险、生命科学、制造业、石油和天然气、零售、电信和公用事业等各个行业。
2. DataRobot
链接: https://www.datarobot.com/
介绍视频: https://youtu.be/wZCNKDX1q4o
DataRobot(DR)是一款高度自动化的机器学习平台,由全球最好的Kagglers构建,包括Jeremy Achin,Thoman DeGodoy和Owen Zhang。该平台声称已经消除了对数据科学家的需求。这从他们网站的一句话中可以明显看出 - “数据科学需要数学和统计资质、编程技能和商业知识。借助DataRobot,你只需提供商业知识和数据,而我们的尖端自动化负责其余部分。”
DR宣称具有以下优点:
3. BigML
链接: https://bigml.com/
介绍视频: https://youtu.be/JVM8qIn3xPQ
BigML提供了一个良好的图形用户界面,可以让用户通过以下6个步骤掌握:
这些过程显然会以不同的顺序迭代。BigML平台提供了很好的结果可视化,并具有求解分类、回归、聚类、异常检测和关联发现问题的算法。他们提供按月、季度和年度订阅捆绑在一起的几个软件包。他们甚至提供免费套餐,但上传数据集的大小限制为16MB。
您可以通过他们的YouTube频道了解他们的界面如何运作。
4. Google Cloud AutoML
链接: https://cloud.google.com/automl/
介绍视频: https://youtu.be/GbLQE2C181U
Cloud AutoML是Google机器学习组件的一部分,它允许有限ML专业知识的人员来构建高质量模型。作为Cloud AutoML产品组合的一部分,第一款产品是Cloud AutoMLVision。该服务使得训练图像识别模型变得更加简单。它具有拖放界面,可以让您上传图像,训练模型,然后直接在Google Cloud上部署这些模型。
Cloud AutoML Vision基于Google的迁移学习和神经架构搜索等技术。这个工具已经被很多组织所使用。看看这篇文章,看看AutoML在两个惊人的现实生活例子的表现,以及它如何产生比任何其他工具更好的结果。
5. Paxata
链接: https://www.paxata.com/
介绍视频: https://youtu.be/bxxsCLmXmms
Paxata是少数几家专注于数据清洗和预处理的组织之一,而不是机器学习或统计建模部分。这是一个易于使用的MS Excel类应用程序。它还提供了可视化的指导,可以轻松地将数据汇集在一起,查找并修复数据中混杂的噪音或缺失,以及在团队之间共享和重复使用数据项目。与本文中提到的其他工具一样,Paxata取消了编码或脚本,从而克服了处理数据所涉及的技术障碍。
Paxata平台遵循以下流程:
Praxata已经涉足金融服务、消费品和网络领域。如果您的工作需要大量数据清洗,它可能是一个很好的工具。
6. Trifacta
链接: https://www.trifacta.com/
介绍视频: https://youtu.be/L-jWAsJNmAU
Trifacta是另一家重点关注数据预处理的创业公司。它有3种产品:
Trifacta提供了一个非常直观的GUI来执行数据清洗。它将数据作为输入并按列提供各种统计数据的摘要。另外,对于每一列,它都会自动推荐一些可以通过单击进行选择的转换。可以使用一些预先定义的函数对数据执行各种转换,这些函数可以在界面中轻松调用。
Trifacta平台使用以下数据准备步骤:
Trifacta主要应用于金融、生命科学和电信行业。
7. MLBase
链接: http://mlbase.org/
介绍视频: https://youtu.be/W-WPclNo8v0
MLBase是加州大学伯克利分校的AMP(算法机器人)实验室开发的一个开源项目。背后的核心思想是为机器学习应用于大规模问题提供一个简单的解决方案。
它有3种产品:
链接: http://www.cs.ubc.ca/labs/beta/Projects/autoweka/
介绍视频: https://youtu.be/LcHw2ph6bss?list=PLm4W7_iX_v4NqPUjceOGd-OKNVO4c_cPD
Auto-WEKA是一个用Java编写的数据挖掘软件,由新西兰怀卡托大学的机器学习小组开发。这是一个基于GUI的工具,对数据科学初学者非常有用。它的最大优点是它是开源的,开发人员提供了教程和论文来帮助你入门。你可以在AV的文章中了解更多相关信息。目前它主要应用于教育和学术目的。
9. Driverless AI
链接: https://www.h2o.ai/driverless-ai/
介绍视频: https://youtu.be/KkvWX3FD7yI
Driverless AI是支持自动机器学习的h2o.ai企业的神奇平台。这个链接上可以使用1月试用版的docker映像。您只需使用简单的下拉列表选择文件来训练,测试并指定您想要跟踪模型性能的指标。坐下来,看着界面直观的平台在你的数据集上训练出优秀的结果,并能与一个经验丰富的数据科学家能够提出的好解决方案相比。
这些是Driverless AI 的业务功能:
10. Microsoft Azure ML Studio
链接: https://studio.azureml.net/
介绍视频: https://youtu.be/tW1JV6bHXFA
当这个领域有这么多大牌玩家时,微软怎么会落后?Azure ML Studio是一个简单却强大的基于浏览器的ML平台。它有一个可视化的拖放环境,不需要编程。他们已经为新手发布了全面的教程和示例实验,可以帮助他们快速掌握该工具。
它采用简单的五个步骤:
11. MLJar
链接: https://mljar.com/
介绍视频: https://youtu.be/ijmw94h4qCk
MLJar是一个基于浏览器的平台,用于快速构建和部署机器学习模型。它有一个直观的界面,并允许您并行地训练模型。它具有内置的超参数搜索功能,可以更轻松地部署模型。MLJar提供与NVIDIA的CUDA,python,TensorFlow等的集成。
你只需要执行三个步骤来建立一个不错的模型:
目前该工具用于订阅版本。它有一个免费的版本并且有0.25GB的数据集限制。这绝对值得一试。
12. Amazon Lex
链接: https://aws.amazon.com/cn/lex/
介绍视频: https://youtu.be/d3LYlNqfuzI
Amazon Lex提供了一个易于使用的控制台,可在几分钟内构建自己的聊天机器人。您可以使用Lex在应用程序或网站中构建对话界面。所有你需要做的是提供一些短语,Amazon Lex完成其余步骤!它构建了一个完整的自然语言模型,使用该模型,客户可以使用语音和文本与应用程序进行交互。
它还内置了与亚马逊网络服务(AWS)平台的集成。Amazon Lex是一项完全托管服务,因此您的用户参与度不断增加,您无需担心配置硬件和管理基础设施以提高您的机器人体验。
13. IBM Wastson Studio
链接: https://www.ibm.com/cloud/watson-studio
介绍视频: https://youtu.be/1_W6Y3c2Aeg
本文怎么能少了IBM Watson?它是世界上最知名的品牌之一。IBM Watson Studio为构建和部署学习机和深度学习模型提供了一个美丽的平台。您可以交互式地发现、清理和转换您的数据,使用Jupyter笔记本电脑和RStudio等熟悉的开源工具,访问最流行的库,训练深度神经网络以及大量其他事物。
对于刚进入这个领域的人来说,他们提供了一系列视频以简化入门阶段。您可以选择免费试用,并亲自查看这款超棒的工具。以上视频将指导您如何在Watson Studio中创建项目。
14. Automatic Statistician
链接: https://www.automaticstatistician.com/index/
Automatic Statistician本身不是一个产品,而是一个创建数据探索和分析工具的研究机构。它可以采用各种数据,并以其自然语言处理为核心,生成详细的报告。它由在剑桥和麻省理工学院工作的研究人员开发,并以75万美元的价格赢得了Google的焦点研究奖。
它目前仍处于积极发展阶段,但在不久的将来应该密切关注。您可以在这里查看一些关于最终报告的示例。
更多工具
如果你是第一次听到这些名字,你不是一个人!随着越来越多的数据被收集,自动化机器学习的市场正在扩大。他们在未来几年会被淹没在市场中吗?时间会证明一切。但是,这些优秀的工具可以帮助那些希望开始学习机器学习,或者正在寻找替代方案来添加到他们现有目录的组织。
结束语
在本文中,我们已经讨论了几项旨在自动化解决数据科学问题的举措。其中一些处于初期研究阶段,一些是开源的,另一些已经在该行业中应用并有数百万资金。所有这些都对数据科学家的工作构成了潜在威胁,预计这一工作在不久的将来会大幅增长。这些工具最适合那些不熟悉编程和编码的人员。
如果你知道在这个领域探索的其他创业公司或计划,请随时在下面发表评论并启发我们!
您也可以在Analytics Vidhya的Android APP上阅读篇文章,可以在Google Play上获取它。
原文标题:
19 Data Science and Machine Learning Tools for people who Don’t Know Programming
原文链接:
https://www.analyticsvidhya.com/blog/2018/05/19-data-science-tools-for-people-dont-understand-coding/
译者简介
王婷,南京理工大学在读研究生,爱笑得有眼角鱼尾纹的运气不赖的女生。不喜欢呆板、教条、无聊,喜欢接触新事物,参加新活动,融入新环境,结交新朋友,互相学习,取长补短。
转载须知
如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:datapi),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。
发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。