2.4 在不同分布上训练和测试数据
在深度学习时代,越来越多的团队使用和开发集/测试集不同分布的数据来训练模型.下面解释一些方法来处理训练集和测试集存在差异的情况.....
2.5 不匹配分布的偏差和方差
对于训练集和开发/测试集来自不同的分布的情况而言,我们计算偏差和方差的方法不同....Notics
算法只见过训练集数据,没见过开发集数据
开发集数据来自不同的分布
需要辨清开发集上的误差有多少是来自算法没看到开发集中的数据导致的,多少是因为开发集数据分布本身就不一样数据不匹配...分别将分类器在训练集/训练-开发集/开发集上运行,获取其准确率信息
分类器在训练集和训练开发集上误差差距较小,这表明分类器本身方差不大
分类器在训练-开发集和开发集上误差差距很大,表明算法误差的差距主要由于数据不匹配导致的...2.6 定位数据不匹配
如果你的训练集和开发/测试集来自不同的数据分布,并且误差分析的结果表明你有一个数据不匹配的问题,这个问题没有标准的解决方案,但是我们可以尝试一些可以做的事情.