所以我试着使用SMOTE。然而,我仍然不能理解SMOTE应该应用在哪里。起初,我考虑在Pipeline之前应用SMOTE,但我得到了以下错误: ValueError: could not convert string to float: '...'所以我考虑在管道中使用SMOTE。但我也得到了一个错误。我尝试在第一步和第二步中,在CountVectorizer之后使用SMOTE(
我有一个由word2vec生成的数据集,其中包含100列作为特征向量(100D个特征向量),我的目标是数据集中每一行向量的分类变量。数据集的问题是它是高度不平衡的,除了前200个分类变量外,其余的类都只有很少的样本和some classes have less than 6 samples。现在,我想使用SMOTE对这些数据执行过采样,以便为少数类生成更多示例。有没有办法,我可以在代码中处理它,这样,我可以忽略那些少于6个样本的类,同时执行SMOTE?