“黑中有白,白中有黑,没有绝对的白,也没有绝对的黑,黑可衬白,白可映黑。万物皆可转换”
在本周中主要讲解了机器学习中的异常检测问题,主要包含:
异常是相对于其他观测数据而言有明显偏离的,以至于怀疑它与正常点不属于同一个数据分布。
异常检测是一种用于识别不符合预期行为的异常模式的技术,又称之为异常值检测。
在商业中也有许多应用,如网络入侵检测(识别可能发出黑客攻击的网络流量中的特殊模式)、系统健康性监测、信用卡交易欺诈检测、设备故障检测、风险识别等
异常检测主要是运用于非监督学习的算法。问题的引出:通过飞机的检测开始。
检测飞机的引擎制造商生产了一批飞机引擎,测试了其中的一些特征变量,比如引擎运转时产生的热量,或者引擎的振动等。
假设有m个引擎,数据如下:

我们绘制出如下图表:

对于给定的数据集,需要检测x_{test}是不是异常的,即这个测试数据不属于这组数据的几率是多少。
从上图看出,在蓝色圈内属于该组的概率高,越是偏远的概率,属于该组的可能性就越低。

另外两个异常检测的应用例子是
高斯分布也叫正态分布。分布满足:
概率密度函数为:

均值\mu为:

方差\sigma^2为 :

高斯分布的样例为

当均值\mu相同的时候
异常检测算法的使用场景一般是三种:
算法的具体过程是






当 p(x) > \varepsilon
当我们开发一个异常检测系统时,从带标记(异常或正常)的数据着手
MA滑动平均法3—Sigma(拉依达准则)One Class SVM的异常检测Isolation Forest的异常检测PCA+MD的异常检测AutoEncoder异常检测异常检测中采用的也是带标记的数据,和监督学习类似。二者对比为:
异常检测 | 监督学习 |
|---|---|
非常少量的正向类(异常数据 $y=1$), 大量的负向类($y=0$) | 同时有大量的正向类和负向类 |
许多不同种类的异常,非常难。根据非常 少量的正向类数据来训练算法。 | 有足够多的正向类实例,足够用于训练 算法,未来遇到的正向类实例可能与训练集中的非常近似。 |
未来遇到的异常可能与已掌握的异常、非常的不同。 | |
例如: 欺诈行为检测 生产(例如飞机引擎)检测数据中心的计算机运行状况 | 例如:邮件过滤器 天气预报 肿瘤分类 |
当正样本的数量很少,甚至有时候是0,即出现了太多没见过的不同的异常类型,对于这些问题,通常应该使用的算法就是异常检测算法。
异常检测算法是基于高斯分布的。当然不满足高斯分布也能处理,但是最好转成高斯分布。误差分析是特征选择中很重要的点。
有些异常数据可能出现较高的p(x)的值,被算法当做是正常数据。通过误差分析,增加新的特征得到新的算法,帮助我们更好地进行异常检测。

新特征获取:通过原有特征进行组合,得到新的特征