我有一个大约20000个训练样本的数据集,我想对其进行二进制分类。问题是数据集严重不平衡,只有大约1000个属于正类。我正在尝试使用xgboost (in R)来做我的预测。我尝试过过采样和欠采样,无论我做什么,不知何故,预测总是导致将所有东西归类为多数类。
我试着阅读了这篇关于如何在xgboost中调优参数的文章。但它只提到了
我曾多次尝试通过过采样和欠采样来平衡数据,尝试改进我的模型的性能,使用不同的分数、超参数调整等方法进行异常值检测的一类支持向量机( SVM )。outcome through AdaBoost upsampled data with real outcome📷
然后,我决定尝试从多数类中删除缺少数</em