统计学习=模型+策略+算法
数据和特征决定了机器学习的上限,⽽模型和算法只是逼近这个上限⽽已
在分类问题中,这个问题相对好理解⼀点,⽐如⼈脸识别中的例⼦,正样本很好理解,就是⼈脸的图 ⽚,负样本的选取就与问题场景相关,具体⽽⾔,如果你要进⾏教室中学⽣的⼈脸识别,那么负样本就 是教室的窗⼦、墙等等,也就是说,不能是与你要研究的问题毫不相关的乱七⼋糟的场景图⽚,这样的 负样本并没有意义。负样本可以根据背景⽣成,有时候不需要寻找额外的负样本。⼀般3000-10000的正样本需要5,000,000-100,000,000的负样本来学习,在互⾦领域⼀般在⼊模前将正负⽐例通过采样的⽅ 法调整到3:1-5:1。