我最近调整了一个深入的学习框架/模型BERT的情感分类任务。我有一个80/10/10的火车/验证和测试集。经过几个实验,我得到了一个体面的模型,我想最终生产。然而,在投入生产之前,我希望创建一个实验来测试模型的健壮性/可靠性/可信度。有哪些方法/实验可以用来测试该模型或其预测的稳健性/可靠性/可信度?
例如,在计算新数据点上的二进制预测的标准错误时,是否有统计上合理的原则?
发布于 2020-08-06 03:58:38
对于二进制预测,根据模型的罗克和中国曲线进行评估是标准的。一些度量也很有用,即MCC,它可能是最全面的标量度量。
使用这些指标,您应该通过交叉验证交叉验证对模型进行评估。对于需要大量时间训练的深层次模型来说,k倍交叉验证通常就足够了。如果你愿意的话,如果时间允许的话,你也可以重复做k折交叉验证.
最后,虽然并非总是可能的,但许多人认为使用不同的数据集是可靠性的最佳指标之一。分割单个数据集仍有可能在培训集和测试集中“泄漏”共同的偏见。当使用两个或多个数据集时,模型在训练数据集中学习的偏差可能不会在完全不同的数据集中表现出来,从而形成一种模拟生产环境的更客观的评估方法。这些偏差包括:数据采集方法、预处理/数据清洗方法等。
https://datascience.stackexchange.com/questions/79861
复制相似问题