尽管神经网络、人工智能和机器学习的嗡嗡声已经发展到相当的阶段。然后,就像很多人知道的那样,这里仍然没有发展出一套新的研究方法。如果有很多核心的算法和途径在这几十年里得到了一定的发展,那么它们的发展为什么仅仅还在起步阶段?
想要回答这些问题,那么我们来看一下最近这5年发生了什么事,或者与数据相关的焦点和相关工具。同时,我们也可以指出可扩展的计算能力为何发展的如此迅速,或者这方面已经更加的专业化,性能为每瓦和每秒(衡量)。这两个因素结合在一起导致了机器学习如此快速的发展,而日益增长的数据分析需求已经远远超出了标准数据库和计算方法,尽管这两个学科本身已经发展了数十年。有一点需要指出的是,我们已经在“数据成熟度”的顶峰——这个时候许多新的数据挖掘工具和相关结构也在迅速的发展(Hadoop,作为一个典型的例子),而这些工具也用于支持处理更大、结果更复杂的数据,同时它们的后劲也提高了数据分析的性能,或者完善了相关的架构。
那么,它会是机器学习尤其对于所有的公司和尝试过通过爬虫技术进行数据分析的终端用户来说,一个很自然的下一步吗?的确,对于大规模、复杂的数据分析的关注,以及系统和架构对它们的支持引发了一些相关的革命。但最终的,一些人会争论到,对于一些分析涉及到研究和企业运作的分析工作量来说,这些提升都让他们走到了事业的巅峰。所有的新方法和解决方案都来自于这块富含“大数据”的“土壤”中,而这些“土壤”历经了轮种和测试。在这里,还要再说一次,对于一个小(但在不断扩大)的工作量的集合来说,给另一种思考复杂问题的解决方法的方案提供了其发展空间。
这里并不是说不曾有关于新的机器学习方法的持续研究和发展,而这些方法以杠杆作用于超扩展的硬件发展中。但是,这里有一个更惊人的故事:讲述了Patrick Hall,一位曾经通过研发了一个市面上热卖的软件,SAS而在高级机器学习科学家中取得了特殊的定位的经历。他的故事的标题是值得我们去注意的,因为他现在致力于寻找一些不能用经典统计模式(这些问题正是这个企业致力于它们所从事的业务的过程中产生的)来解答,并力争把几个经典模型结合起来解释现存的企业产品的问题,最少可在某种程度上用到它们。
Hall断言说,当上述的趋势推动了机器学习往前沿发展的时候,现在有一点不一样的是数据终将存在一个足够容量大的容器中,而它们不再像统计分析师那样工作,再加上机器学习算法有了新的发展的时候,那么它的黄金时期也终将到来。
“这是说我们可以在很多地方都能看到数据的存在,它的范围比以前更宽了——也就是说它们的列比行更多,而且有了更多的变量和观察资料。这一切对于传统的统计学来说就不适用了。现在,这里有更多相关变量伴随的数据(例如,像素与图像数据相关),甚至还存在文本挖掘中。”Hall也同样说到,这里大量新产生的数据构成了一套资源,这套资源由迷失或松散的数据定义,这些数据只有百分之一或更少的数据集包含了确切的变量。
对于那些想要投入一定的时间来分析一种无法用传统的统计学方法分析的数据的商人来说,这里蕴含了一个巨大的商机——这个商机是给一些刚创立的公司一笔新的财富或者来自一些有一定知名度的分析公司新的主动权,而他们想要得到那些被称之为“机器学习”的产品的信息,甚至也只是稍微加优化过的分析,是他们所渴望的。这给定义又带来了这样的一个问题,而且这里没有命名名称,一些严重的分析例子和商业智能公司会使用一些旧的软件然后简单的打上一个“机器学习”的标准,因为这听起来比数据分析更加的健壮和复杂。这是其中一种在崭新的科技领域在发展时期所产生的阵痛,尤其是当超级机器加速它强大的引擎的时候。Hall说用户需要明白他们的数据及其问题所在,而且一旦发生了这样的情况,我们会很清楚的看到无论是一个标准的统计学还是数据库,其解决方案总会相对的适合一些更通用的东西(而且可能看起来会更复杂)。
这不是说每个传统的统计学和数据库公司都在改变它们的产品信息而不是围绕机器学习的技术。SAS在20世纪90年代的时候第一次以数据开发产品的方式(企业数据挖掘者)被介绍到世人面前的时候,它涵盖了很多机器学习的模型,而它们也让这产品在近来被大肆的炒作(神经网络、决策时、k均值聚类等等)。甚至有些像Hall所说的那样,有些模型还形成了很多的用例,而这些用例来自企业的数据仓库,以用来匹配那些缺少任何参数的假设的模型。所以这不是什么新鲜事——但是使用范围和问题的数量也在增长,甚至在有些地方都不会用这样的模型。
在企业的竞技场中,随着机器学习学科的发展和成熟,这使得隐含、保险和信用卡行业都发展迅速。有趣的是,这三样东西都是一个市场调控的例子,这些市场拥有黑盒测试法来解决监管部门需要解决的相关参数问题。
这里总有关于机器学习的公平交易的身影。你交易的可解释下是为了希望能得到更多精确的结果,然而这对于一个受管制的行业进行公平交易来说变得更为艰难。事实上,他们最终还是看到了这样的一个机会,而这样的公平交易也让他们感到更加的舒适和满足。
Hall和他的公司的人都清楚的意识到他们不得不同时在语言和产品的级别上保持创新,从而能跟上创业的浪潮,进而能不断的取得经费的支持。“现在你确实要意识到竞争在不断的加剧”,他赞同。“我们在尝试让我们的技术不断适应机器学习的并发性可扩展性当中所产生的问题。但是这是SAS,它意味着我们使用那些已经被认为是陈旧了的语言的语法将收到限制。”他说到即使现在的技术还能像以前那样健壮性比较强,SAS已经“不再实用”,因为改变了语法的核心意味着主要的框架在American Express和美国银行这样的企业中已经崩溃了。“我们现在能做的就是改变语法背后所运行的东西,而这也是我们现阶段所努力的方向。”
在这点上我们很难说多大规模的企业会考虑所有在数据仓库的数据哪些不再适用于传统的回归模型的账单中。如果想要做到公平,我们就要在熟悉的框架中做更多复杂的事情,而这些解决方案也似乎有了自己的价值,尤其是对那些收到调控的行业的人来说,他们企图要通过使用一些机器学习的方法来加强他们的分析能力,至少对于他们的理解和熟悉度来说是一个最基本的层次。这是SAS希望其进军机器学习为大型成功企业,并在一些新兴的创业公司将有一个艰难的时间转变过去的以消费者为中心的图像和脸部识别,语音识别,或者其他领域。
也许我们说机器学习已经在它的黄金时期走下坡路也为时尚早。但有些事情我们几乎可以肯定很快就会发生,并在不久的将来会看到显著的结果。而那些给予新的投资和注意在机器学习作为下一个在大数据工具和处理问题的方法来说是最好的合作伙伴的财富,这看起来不像是这个行业发展的延伸。
翻译:品言 审核:陆勤
原文链接:http://www.theplatform.net/2015/10/20/why-the-golden-age-of-machine-learning-begins-now/
PPV课原创翻译文章,转载请注明出处!
1、回复“数据分析师”查看数据分析师系列文章
2、回复“案例”查看大数据案例系列文章
3、回复“征信”查看相关征信的系列文章
4、回复“可视化”查看可视化专题系列文章
5、回复“SPPS”查看SPSS系列文章
6、回复“答案”查看hadoop面试题题目及答案
7、回复“爱情”查看大数据与爱情的故事
8、回复“笑话”查看大数据系列笑话
9、回复“大数据1、大数据2、大数据3、大数据4”查看大数据历史机遇连载
PPV课大数据ID: ppvke123 (长按可复制)
大数据人才的摇篮!专注大数据行业人才的培养。每日一课,大数据(EXCEL、SAS、SPSS、Hadoop、CDA)视频课程。大数据资讯,每日分享!数据咖—PPV课数据爱好者俱乐部!