东风吹,战鼓擂,建模型,谁怕谁。别急,建模型前,先了解一下机器学习的模型之“魂”-算法。
百度百科汇总了各位牛人对机器学习的定义,在姐看来,机器学习就是算命。算命的方法(简称算法)有:面相、手相、星座、八卦、测字、奇门、太乙、抽签等,其算法也是基于大数据总结的大概率事件。料事如神的诸葛亮穿越到这个时代,一定会是一位超牛的人工智能届的大牛。算命是迷信,机器学习是科学,把他们扯在一起,罪过罪过。
机器学习可用来处理回归、分类、聚类、降维等问题。sklearn的一张图总结了不同问题对应的不同算法。
因平时接触的大多是连续型的数据,对连续型数据的各种算法做了回归分析,各种回归算法总结汇总如下:
由算法的拟合度指标R-sq可以看出,集成算法明显优于普通算法。到底哪种算法最好呢?这并没有统一的答案,要依据具体的数据情况和分析目的,选取适合数据的算法。了解了每种算法的代码,可以多做几种尝试,老老实实地从sklearn调包,本本分分地做代码的搬运工。
基于手上的数据,一句话点评一下用过的算法:
单一的算法虽然直观,但模型精度不忍直视。
集成算法(ensemble)明显“高贵”一些。
XGBRegressor在Kaggle竞赛中屡屡超尘拔俗,受到热捧。
R-square 显示ExtraTreeRegressor拟合度最佳,但要综合考虑误差,方差等因素以及模型在测试集上的表现来评价模型,避免过拟合。
数据量大,特征多的情况下,套用一句广告语:自从用了神经网络,模型精神多了。
在算法的羊圈里逛了一圈,认识了11头算法羊,下一篇,逮住一只羊,可劲地薅羊毛。(选定一种算法,从头到尾走一遍代码)。
领取专属 10元无门槛券
私享最新 技术干货