是否有正确的顺序,我应该使用Sklearn将数据转换放入管道中?
目前,我有这些项目在我的编审;
特征选择,倾斜去除,缩放,离群点去除,过采样和估计。
有正确或错误的方法吗?还是没有免费午餐?
发布于 2020-02-15 16:50:49
最常见的办法是将这两种战略结合起来:
发布于 2020-02-16 04:04:07
我同意@BrianSpiering关于一般方法的观点,也同意你的观点,即这是一种非免费午餐的情况。但是..。
过度取样似乎在任何地方都合情合理。这可能取决于你在做什么样的过度抽样。我可以看到新的点扰乱了发行版,从而影响到其他所有内容,但它也可能使其他步骤更加健壮。
(再说一遍,我仍然在寻找一些例子,在这些例子中,重采样技术大大超过了阈值选择。参见https://stats.stackexchange.com/questions/247871/what-is-the-root-cause-of-the-class-imbalance-problem及其链接的问题。)
离群点移除应尽早进行,因为异常值将影响倾斜/缩放校正。对我来说,倾斜/缩放感觉是相同的过程,如果它们是独立的步骤,我怀疑它们可以按任意顺序发生。
我会在接近尾声的时候保留特性选择,以免一个重要的特性被忽略,因为它是倾斜的/不缩放的/容易出现异常的。(然而,特性选择方法容易出错,因此,如果在某些数据集中移动它的性能更好,我也不会感到惊讶。)
https://datascience.stackexchange.com/questions/68136
复制相似问题