给定随机生成的数据(X)和响应(Y),此代码将执行leave group out交叉验证1000次。因此,Y的每个条目都是CV迭代中预测的平均值。曲线下的计算面积应该为~0.5,因为X和Y是完全随机的。然而,这并不是我们所看到的。曲线下的面积通常明显高于0.5。X的行数非常少,这显然会导致问题。 ansMat[test,i]=as.numeric(predVe
我正在使用kaggle的HR Attrition数据集(在班级竞赛中),它包含1628行和27列。大多数功能在本质上是分类的,我使用随机森林并使用Stratified K fold (10折)进行验证,我的验证AUC相当高,约为0.98-99。在提交时,我无法获得超过0.85的AUC,这是一个巨大的偏差。我尝试了很多方法,比如PCA和特征选择,但我的验证并不可信,提交分数<