尝试创建一个程序，将数据集的离群值添加到新列表中(这样我就可以确定数据集中有多少离群值)

文章/答案/技术大牛

发布

1回答

、、、、

我正在尝试创建一个程序，它根据您给出的数字生成一个数据集，然后根据该数据集绘制一个直方图。我需要查看数据集中异常值的确切数量，我试图通过创建一个包含所有非异常值的“干净”列表，然后只留下原始数据集数组中的

浏览 18提问于2020-10-20得票数 0

2回答

删除后:接近最大值的离群值，保留在R盒图中

、

在R中创建了一个函数，该函数应该返回一个用NA来替换某些数据的离群值向量，之后，我得到了在最大值附近保留的离群值：killed[x > (q[2] + intq)] <- NA 假设它是少的或相等的</em

浏览 3提问于2020-05-07得票数 0

回答已采纳

3回答

Python海运-如何在盒图中确定异常值

、

我想知道用什么算法来确定海运中的盒图分布中的“离群点”。在他们的网站上，他们简单地说：我真的很想知道他们用了什么方法。我从一个

浏览 1提问于2017-04-06得票数 11

回答已采纳

1回答

多变量离群点的剔除

、、

问题友好的用户在这里注意到，我需要的可能是异常值。

浏览 2提问于2017-07-24得票数 4

回答已采纳

1回答

生成仅由大型数据集的离群值组成的数据帧

、、

我不是试图从数据集中删除离群值，而是尝试创建一个新的数据框架，该框架仅由其中包含异常值的行组成。Outl

浏览 3提问于2014-02-21得票数 0

回答已采纳

4回答

在决策树中处理异常值和空值

、、、

离群值:据我所知，决策树对异常值是稳健的。有人能证实我的假设是否正确吗？(如果我的特征从0到9不等，但存在一个值为10000的异常值，那该怎么办？)它是否为这个离群点样本创建了一个单独的叶子，还是会与其他树的叶子合并？空值:在使用决策树建立模型之前，我们需要替换空值吗?还是由决策树技术自动处

浏览 0提问于2018-05-09得票数 6

回答已采纳

1回答

如何将非高斯分布转化为高斯分布？

、、、

假设我有一个数据集，其中没有几个维度的分布是非高斯的，这意味着，偏斜度是非零的(正的或负的)。这是由我的数据中的一些异常值造成的，这些异常值不可能手动排除。现在我的问题是，如何能够将这个数据集转换成一个高斯(零偏斜度)，这样</em

浏览 0提问于2019-09-03得票数 0

回答已采纳

1回答

如何替换时间序列分析中的异常数据？

、、

我应用了隔离森林算法来识别我的时间序列中的异常数据。现在，我想在将这些离群值送入机器学习模型之前替换它们。我们如何在时间序列分析中替换这些异常值？

浏览 9提问于2021-07-23得票数 0

2回答

验证无监督二进制分类

、、、

我在研究一个完全没有监督的异常检测问题。由于它完全没有监督，所以我很难定义一些度量来验证结果(我运行了几个算法，但最终的结果是二进制分类)。我正在考虑做一个Mann测试，以检查我标记的异常样本和非异常样本之间的显着差异。当然，这并不能告诉我分类是否正确，但至少我可以假设我的分类方法将我的数据分割成两个显著不同<

浏览 0提问于2022-08-30得票数 1

1回答

如何随机创建异常数据集？

、

我正在尝试创建一个异常数据集，其中包含8列，一些列包含分类值，另一些列包含正数值。该数据只包含两种类型的数据点:普通数据点和异常值。我想知道您是否知道有什么工具或库，或者某些方法可以帮助我自动创建这种类型的数据集。我听说numpy有生成标准发行版的工具，但我认为它不能创造绝对

浏览 3提问于2019-12-10得票数 1

回答已采纳

2回答

利用局部离群因子得分检测运行时异常值

、、

我使用LOF (局部离群系数)来检测数据中的异常值。我得到LOF分数作为离群点的距离。这种无监督的学习无助于在运行时检测出离群点。所以我想用我的数据点和LOF分数来建立一个有监督的回归/分类模型。我的问题是，哪一个应该从 1)分类(取LOF评分的

浏览 0提问于2018-05-18得票数 1

1回答

良好的预处理数据集

、、

我注册了一门数据挖掘的研究生课程，我的任务是编写数据挖掘预处理器的代码。我可以自由选择编程语言和数据集。我想知道是否有人能提出一个很好的数据集供使用。我一直在浏览，我找到了更多这样的资源。但作为一个初学者，我不确定

浏览 2提问于2011-10-31得票数 3

回答已采纳

1回答

为数据集中的每个变量提取异常值

、、

我有一个很大的数据集，我试图为每个变量获取它的离群值，以便过滤掉它们。> dataset$variable <- !dataset$variable %in% boxplot.stats(dataset$variable)$out 但是，对于具有多种数据类型的大型数据</em

浏览 1提问于2022-08-18得票数 0

1回答

如何下载Power数据集而不发布到web

、、、、

我使用的是一个计算过的列，这是一个平均值。问题是，平均值高于可能值的范围，这应该是不可能的。所以一定有一个异常值导致平均值高于可能值的范围，但它不在Power BI提取的原始数据源中。原始数据源显示的平均值为4.1，在预期范围内。但是Power BI的数据集

浏览 5提问于2021-04-07得票数 1

回答已采纳

1回答

在Sklearn Outlier Detection methods中将‘Detection’参数设置为'auto‘会做什么？

、、、、

我有一个数据集，我需要能够在多大程度上控制离群值检测模型(孤立森林，椭圆包络，OneClassSVM...)将给定点视为异常值或非异常值(类似于Z分数或IQR分数)。这意味着我不想预先指定数据集中离群点的百分比，更为人所知的是contamination参数，但我希望这个百分比取决于我希望我的模型有多“挑剔”。这是否等同于将参数c

浏览 31提问于2020-07-24得票数 3

回答已采纳

2回答

sklearn:利用隔离林进行异常检测

、、

我有一个没有异常值的训练数据集：(588649, 896)from sklearn.ensemble import IsolationForestclf.fity_pred_train == 1)) print

浏览 7提问于2017-07-12得票数 0

回答已采纳

1回答

删除r中的异常值

、

我有一个很大的数据集从一个excel文件(保存为csv)，其中有审判(X)和时间(Y)。我知道有一个代码可以通过使用卡方测试代码来剔除试验中的单个离群值。但是，我希望能够删除在数据集中有异常值的整个列，同时将文件中的其他数据</em

浏览 0提问于2012-08-03得票数 1

2回答

创建一个确定异常值影响的函数

、

我的总体目标是演示离群值在数据集平均值上的差异。我正在尝试创建一个使用异常值"k“的大小作为输入并输出平均值的函数。基本上，函数需要接受任何值" k“(这是异常值)，如果x的第一个值被替换为k，则返回向量x的平均值。例如，假设数据

浏览 26提问于2020-09-03得票数 0

回答已采纳

3回答

如果本地离群点因素需要没有异常值的训练数据，为什么它被归类为无监督的？

、

在Scikit-Learn中，局部离群因子(LOF)算法被定义为一种无监督异常检测方法。所以我不明白为什么这个算法需要预先过滤的训练数据。也许这里的“培训数据”仅仅意味着“数据开始？”但是SciKit- training提供的示例代码清楚地显示了没有异常的培训数据。这是否意味着，如果培训数据包含异常，该模型将无法工作？更重要的是，如何使用该算法在训练数据

浏览 0提问于2019-02-04得票数 0

回答已采纳

1回答

用极端异常值对数据进行规范化以进行预测

、、、

假设我有一个输入值，表示从每个时间步骤到下一个步骤的股票份额的变化。现在我想把这些值输入到LSTM神经网络中。我的问题是，大多数值在-0.000001到0.000001之间，但有些值会上升到0.1或-0.1。如何有效地缩放这样的数据集。我尝试应用一个日志函数

浏览 0提问于2020-08-22得票数 0

点击加载更多