训练误差:模型关于训练数据集的平均损失(经验风险) 测试误差:模型关于测试数据集的平均损失(经验风险)
当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当模型复杂度过大时,过拟合现象就会发生。 学习时选择的模型所包含的参数过多(复杂度过高),以致于出现这一模型对已知数据预测得很好,但对未知数据预测得很差的现象
正则化:正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或罚项 正则化项:一般是模型复杂度的单调递增函数,模型越复杂,正则化值越大 正则化的作用是选择经验风险与模型复杂度同时较小的模型
如果给定的样本数据充足,进行模型选择的一种简单方法是随机地将数据集切成三部分,分别为训练集、验证集和测试集。训练集用来训练模型,验证集用于模型的选择,测试集用于最终对方法的评估 但是由于在许多实际应用中数据是不充分的,为了选择好的模型,可以采用交叉验证方法 (1)基本思想:重复的使用数据,把给定的数据进行切分,将切分的数据集组合为训练集和测试集,在此基础上反复地进行训练、测试以及模型选择 (2)简单交叉验证:将已给数据随机分为两部分,分别用作训练集和测试集 (3)S折交叉验证:首先将已给数据随机分为S组;然后利用S-1个子集的数据训练模型,剩余1个子集测试模型;将这一过程对可能的S种选择重复进行;最后选出S次评测中平均测试误差最小的模型。 (4)留一交叉验证:S折交叉验证的特殊形式是S=N,其中N是给定数据集的容量
TP——将正类预测为正类数; FN——将正类预测为负类数; FP——将负类预测为正类数; TN——将负类预测为负类数。