首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >斯基恩管道订单

斯基恩管道订单
EN

Data Science用户
提问于 2020-02-15 16:17:55
回答 2查看 123关注 0票数 1

是否有正确的顺序,我应该使用Sklearn将数据转换放入管道中?

目前,我有这些项目在我的编审;

特征选择,倾斜去除,缩放,离群点去除,过采样和估计。

有正确或错误的方法吗?还是没有免费午餐?

EN

回答 2

Data Science用户

发布于 2020-02-15 16:50:49

最常见的办法是将这两种战略结合起来:

  1. 领域专长-给定有关数据集和模型目标的知识,选择最佳操作数据的顺序以完成项目的目标。
  2. 经验证据-排列顺序和基准结果。选择在基准上具有最高性能的置换。
票数 4
EN

Data Science用户

发布于 2020-02-16 04:04:07

我同意@BrianSpiering关于一般方法的观点,也同意你的观点,即这是一种非免费午餐的情况。但是..。

过度取样似乎在任何地方都合情合理。这可能取决于你在做什么样的过度抽样。我可以看到新的点扰乱了发行版,从而影响到其他所有内容,但它也可能使其他步骤更加健壮。

(再说一遍,我仍然在寻找一些例子,在这些例子中,重采样技术大大超过了阈值选择。参见https://stats.stackexchange.com/questions/247871/what-is-the-root-cause-of-the-class-imbalance-problem及其链接的问题。)

离群点移除应尽早进行,因为异常值将影响倾斜/缩放校正。对我来说,倾斜/缩放感觉是相同的过程,如果它们是独立的步骤,我怀疑它们可以按任意顺序发生。

我会在接近尾声的时候保留特性选择,以免一个重要的特性被忽略,因为它是倾斜的/不缩放的/容易出现异常的。(然而,特性选择方法容易出错,因此,如果在某些数据集中移动它的性能更好,我也不会感到惊讶。)

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/68136

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档