根据统计,目前受访者选择的最常用方法包括回归、聚类、可视化、决策树/规则以及随机森林; 只有20%的受访者使用深度学习方法; 我们同时对各种方法在“行业”与“学术”层面的普及度进行了汇总。
本次调查的问题非常简单:
您在过去十二个月中曾在实际应用当中选择哪些数据科学/机器学习方法与工具?
根据732名受访者提供的结果,得出以下论断:
2017年应用范围最广的十大数据科学与机器学习方法
本次调查的受访者平均使用7.7种工具/方法。
接下来,我们比较了今年调查当中使用范围最广的前16种方法,并将其与去年的结果进行了比对,如下图。
2017年与2016年前16大数据科学/机器学习方法比对
我们注意到,随机森林、可视化与深度学习的使用比例显著增加,而K-nn、PCA以及Boosting则有所下降。梯度推进机今年则首次上榜。
尽管取得了令人瞩目的成功,但根据此次调查,仅有20%的受访者实际使用深度学习方法。
与去年相比,今年增长幅度最大的工具/方法包括:
贝叶斯方法,增长49%,由2016年的11.7%增长至2017年的17.5%。
随机森林,增长32%,由2016年的35.1%增长至2017年的46.2%。
深度学习,增长20%,由2016年的17.2%增长至2017年的20.6%。
生存分析,增长13.5%,由2016年的7.5%增长至2017年的8.5%。
可视化,增长9%,由2016年的46.7%增长至2017年的51.0%。
2017年的榜单还迎来一众全新方法,具体包括:
梯度推进机, 20.4%
卷积网络, 15.8%
递归神经网络(简称RNN), 10.5%
隐马尔可夫模型 (简称HMM), 4.6%
强化学习, 4.2%
马尔可夫逻辑网络, 2.5%
生成对抗网络 (简称GAN), 2.3%
使用比例下降最显著的包括:
奇怪值分解(简称SVD),下降48%,由2016年的15.4%下降至2017年的8.1%
图形/链结/社交网络分析,下降42%,由2016年的14.0%下降至2017年的8.1%
遗传算法/进化方法,下降42%,由2016年的8.3%下降至2017年的4.8%
EM,下降36%,由2016年的6.4%下降至2017年的4.1%
优化,下降26%,由2016年的23.2%下降至2017年的17.2%
Boosting,下降20%,由2016年的30.6%下降至2017年的24.6%
PCA,下降14%,由2016年的40.5%下降至2017年的34.7%
行业归属
各行业的方法/工具使用情况为:
行业/个人,63%,平均工具使用量为8.3款
学生,15%,平均工具使用量为5.7款
研究人员/学术人员,11%,平均工具使用量为7.8款
其它,11%,平均工具使用量为7.1款
备注:只有35名受访者选择了政府/非营利性组织——由于样本规模太小,因此这里我将其纳入“其它”类别当中。
下面为16种排名靠前的方法及其偏差倾向结果
具体计算方法为:偏差(方法,归属)=比例(方法,归属)/比例(方法)-1
如果偏差值为正,则意味着该方法的使用频率高于平均水平。如果为负值,则代表该方法的使用频率低于平均水平。
举例来说,支持向量机(简称SVM)拥有28.7%的受访者使用比例,但在研究人员群体内则拥有44.4%的使用比例,因此偏差(SVM,研究人员)=44.4%/28.7% - 1 = 54.9%.
前16大数据科学方法及其归属关系倾向性
接下来,我们将考察各项数据科学方法在行业/学术界之间的吸引力。
以下图表所示为各项数据科学方法在各行业与学术界(学术界定义为学生+研究人员群体)中的吸引力排名:行业吸引力(方法)=比例(方法,行业)/比例(方法,学术界)-1
其中“行业”使用频率最高的方法为:
增量建模(连续第二年登顶)
异常/偏差检测
梯度推进机
“学术界”最青睐与深度学习相关的先进议题:
生成对抗网络 (简称GAN)
强化学习
递归神经网络(简称RNN)
卷积网络
数据科学方法及其行业/学术界吸引力
条状图形的宽度对应其使用比例,颜色则对应行业/学术界吸引力。
最后,全球各区域的参与度为:
欧洲, 39%
美国/加拿大, 33%
亚洲, 14%
南美洲, 6.0%
澳大利亚/新西兰, 4.8%
非洲/中东, 3.8%
下表所示为所有方法的具体数据,按总体使用比例排序。
表中各列分别为:
方法:数据科学方法
2017年与2016年变化百分比:与2016年相比的使用比例变化情况
总体使用情况百分比:受访者使用该方法的百分比
行业使用情况百分比:行业类受访者使用该方法的百分比
学生使用情况百分比:学生受访者使用该方法的百分比
研究人员使用情况百分比:研究人员受访者使用该方法的百分比
表一:数据科学方法使用情况
领取专属 10元无门槛券
私享最新 技术干货