机器学习建模实践要点总结

文章来源：企鹅号 - 一本格

1、模型优化目标与技术指标一致，技术指标与业务指标一致

2、除了训练数据之外，尽可能多地把信息加入到模型中：

建立子模型，引入中间数据

加入先验分布，constraints，其他形式数据作为模型先验

利用Domain Knowledge 做特征抽取、选择，将人对问题的理解加入模型

3、训练集测试集分布线上线下保持一致

4、特征体系尽可能完整，high level/low level的都要有

5、线性模型注意单调性的问题，特征抽取阶段多做有意义的非线性转换

6、用先验和正则防止过拟合，L1具有特征选择的作用，尤其是对海量特征很有作用

7、优化模型要分析清楚瓶颈再动手

优化模型时瓶颈的具体判断，看测试集和训练集的误差分布

1、加机器，加数据，降低方差，一定程度上降低偏差

2、加特征，特征组合，降低偏差，可能增加方差

3、减特征，特征降维，降低方差，可能增加偏差

4、改进特征使更具有区分能力，降低偏差

5、调正则化参数，偏差方差权衡

6、增加先验知识，降低方差

7、用另外的优化算法，比如牛顿法，基本上没用

8、换模型，SVM ADABOOST，其他途径都无效时可以试试

相关快讯