1、模型优化目标与技术指标一致,技术指标与业务指标一致
2、除了训练数据之外,尽可能多地把信息加入到模型中:
建立子模型,引入中间数据
加入先验分布,constraints,其他形式数据作为模型先验
利用Domain Knowledge 做特征抽取、选择,将人对问题的理解加入模型
3、训练集测试集分布线上线下保持一致
4、特征体系尽可能完整,high level/low level的都要有
5、线性模型注意单调性的问题,特征抽取阶段多做有意义的非线性转换
6、用先验和正则防止过拟合,L1具有特征选择的作用,尤其是对海量特征很有作用
7、优化模型要分析清楚瓶颈再动手
优化模型时瓶颈的具体判断,看测试集和训练集的误差分布
1、加机器,加数据,降低方差,一定程度上降低偏差
2、加特征,特征组合,降低偏差,可能增加方差
3、减特征,特征降维,降低方差,可能增加偏差
4、改进特征使更具有区分能力,降低偏差
5、调正则化参数,偏差方差权衡
6、增加先验知识,降低方差
7、用另外的优化算法,比如牛顿法,基本上没用
8、换模型,SVM ADABOOST,其他途径都无效时可以试试
领取专属 10元无门槛券
私享最新 技术干货