从数据集中检测和丢弃离群值

、

我需要检测数据集中的所有异常值并删除它们。我已经成功地通过IQR和Z得分定位了异常值，并最终得到了一个真和假的列表。这很好，只是我不知道如何访问显示为False的特定行来定位异常数据的确切行，以便将其从数据集中删除。我已经在网络上搜索了几个小时，堆栈溢出，我只是完全被困在这个问题上。任何帮助都是非常感谢的。错误： IndexingError:作为索引器提供的不可对齐的布尔级数(布尔级数和索引对象的索引不匹配).ent

浏览 24提问于2020-09-13得票数 0

1回答

如何替换时间序列分析中的异常数据？

、、

我应用了隔离森林算法来识别我的时间序列中的异常数据。现在，我想在将这些离群值送入机器学习模型之前替换它们。我们如何在时间序列分析中替换这些异常值？

浏览 9提问于2021-07-23得票数 0

4回答

为异常值标记创建一个新变量

、

因此，我正在对给定的数据集进行异常值检测。顺便说一句，这是在R中完成的。Var1 Var2dsa 15aas 9dd

浏览 3提问于2016-10-26得票数 1

回答已采纳

2回答

sklearn:利用隔离林进行异常检测

、、

我有一个没有异常值的训练数据集：(588649, 896)print(np.count_nonzero(y_pred_train == -1)) 588649 58878y_pred_test = clf.predict(test_vectors)

浏览 7提问于2017-07-12得票数 0

回答已采纳

2回答

在使用scikit-learn时，获取每个新的观测值为异常值的概率

、

我对一般的科学学习和支持向量机方法都很陌生。我已经让我的数据集在scikit中很好地工作--学习OneClassSVM以检测异常值；我使用观察来训练OneClassSVM，所有这些都是“不稳定值”，然后使用predict()在我的测试数据集上生成二进制的inlier/离群值预测。然而，为了继续我的分析，我想得到与我的测试集中的每一个新的观察相关联的概率。与每一次新观测相关联的离群值的概率。我注意到了scik

浏览 3提问于2015-02-08得票数 2

3回答

使用无监督的隔离森林，如何从异常分数中识别出最佳的离群点数量？

、

我正在使用一个无监督的隔离林算法和计算异常分数从一个二维玩具数据集中检测出异常值。从散点图中，我能够检测/可视化异常分数最高的数据点(例如:数据中的前10位或前15位异常值)作为我的异常值。异常值的数量是否主观地决定了用户的决策(例如: 0.5>S>1的异常分数是一个异常值，所有小于0.5的事物都不是)，还是有一种方法可以根据异常分数来检测出最优的离群点数量？ 📷

浏览 0提问于2019-04-09得票数 4

1回答

异常值检测-缺失值

、

我面临一个数据科学挑战，其中提供了两个数据集，第一个数据集包含数天的天气数据(温度、风速和降水)，另一个数据集包含同一天的飞行信息(飞行时间和乘客人数)。飞行数据集可以包含同一天的多个航班。首先，我们被要求合并这两个数据集。因此，天气数据值可以重复，因为同一天可以有多个航班。我有几个关于离群点检测的问题：由于许多天气数据值将在

浏览 0提问于2022-01-15得票数 0

1回答

在拟合凸包前除去孤立点

、、

我有一些数据集，我想用凸包可视化(并从凸包中得到一些统计数据)。但是，每个数据集都包含一些噪声。因此，凸包不仅覆盖了主数据云中的点，而且覆盖了所有的异常点，使得凸包的面积很大，而且数据集之间的差异不大。数据集的一个例子如下：整个区域不是单峰，但我们肯定可以观察到一些异常点(特别是在左边)，它扰乱了凸包的形状。估计的KDE如下：因此，我想移除那些离群点。用什么算法可以将最小面积凸包拟合成数据集中的n-k点，其中k被设

浏览 1提问于2019-08-20得票数 0

3回答

是否可以测试DBSCAN聚类算法？如果是，怎么做？

、、、、

我想使用DBSCAN clustering algorithm来检测数据集中的异常值。由于这是一种无监督的学习方法，我是否需要在培训和测试数据中拆分数据集，还是不可能测试DBSCAN algorithm？出于离群点检测的原因，我是否应该向DBSCAN model提供整个数据集？

浏览 1提问于2019-08-02得票数 0

回答已采纳

1回答

孤立点检测的邻域计算

、、、、

我正在使用R编程语言，并试图了解用于异常值检测的以下函数的细节：这个函数(来自"dbscan“库)使用本地离群值因子(LOF)算法计算异常值：。LOF算法是一种无监督的、基于距离的算法，它定义了数据集中相对于观测的“可达性和邻域”的异常值。一般说来，相对于邻里的其他观测而言，“很难到达”的观测被认为是一个“离群点”。基于这些属性(用户指定这些属性，例如邻域(由“k”表示)可以是"3")，该算法为数据集中

浏览 7提问于2021-02-22得票数 0

3回答

哪些算法或方法可用于从该数据集中检测异常值？

、

假设我有一个数据集：Amount of money (100, 50, 150, 200, 35, 60 ,50, 20, 500)。我让谷歌，网络寻找技术，可以用来寻找一个可能的离群点在这个数据集中，但我结束了困惑。PS:假设数据不服从正态分布。谢谢。

浏览 0提问于2015-10-31得票数 8

回答已采纳

1回答

在Sklearn Outlier Detection methods中将‘Detection’参数设置为'auto‘会做什么？

、、、、

我有一个数据集，我需要能够在多大程度上控制离群值检测模型(孤立森林，椭圆包络，OneClassSVM...)将给定点视为异常值或非异常值(类似于Z分数或IQR分数)。这意味着我不想预先指定数据集中离群点的百分比，更为人所知的是contamination参数，但我希望这个百分比取决于我希望我的模型有多“挑剔”。

浏览 31提问于2020-07-24得票数 3

回答已采纳

1回答

生成仅由大型数据集的离群值组成的数据帧

、、

我不是试图从数据集中删除离群值，而是尝试创建一个新的数据框架，该框架仅由其中包含异常值的行组成。Outliers <- Sample[((Sample$x - Sample$Averages)/Sample$StDevs) > 2.00,] 此过程正在运行我从<

浏览 3提问于2014-02-21得票数 0

回答已采纳

2回答

利用局部离群因子得分检测运行时异常值

、、

我使用LOF (局部离群系数)来检测数据中的异常值。我得到LOF分数作为离群点的距离。这种无监督的学习无助于在运行时检测出离群点。所以我想用我的数据点和LOF分数来建立一个有监督的回归/分类模型。我的问题是，哪一个应该从在运行时，如何使用任何聚类/异常检测(使用群集)？

浏览 0提问于2018-05-18得票数 1

1回答

概率/频率分布中的孤立点检测

、、、、

我有二维数据集。(X和Y)都是连续随机变量。Z= (X，y) = {(1，7)，(2，15)，(3，24)，(4，25)，(5，29)，(6，32)，(7，34)，(8，35)，(9，27)，(10，39)} 我想检测有关y变量的值的异常值。Y变量的正常范围是10-35.因此，上述数据集中的第1对和最后对是离群值，其他则是正常的巴黎。我想把变量z= (x，y)转化为异常值(第一对和最后对)在标准差1之外的概率

浏览 2提问于2013-12-05得票数 0

回答已采纳

3回答