案例
对窃漏电相关的用电负荷数据、终端报警数据、违约窃电处罚信息以及用户档案资料等进行数据处理。选取所有窃漏电用户及部分正常用户的电量、告警及线损数据和该用户在当天是否窃漏电的标识,按窃漏电评价指标进行处理,构建专家样本库,得到建模数据。
数据挖掘实践案例二:CART决策树
电力窃漏电用户自动识别
分类与预测:
有目标的对事物进行分类预测,如:客户流失预测、偷窃电用户识别等。
CART决策树
实现窃漏电用户识别操作过程:
1)读取建模数据并对数据进行过滤和其它的相关处理
2)将建模数据进行分区处理,数据80%作为训练样本,剩余20%作为测试样本
3)使用CART决策树实现分类预测模型
4)利用混淆矩阵对模型进行评价,并分析其预测的效果
需要加载R中的tree包做CART决策树建模
电力窃漏电用户自动识别
原始数据样本情况
1.对数据文件进行相应的操作,需要对原始数据进行过滤,过滤掉数据中无关的属性。
用电负荷数据,采集时间间隔为15分钟,可进一步计算该大用户的用电量。
注:读入不同格式数据方法请参看早期推送内容。
2. 修改其中某些数据属性的类型。设置终端报警数据。
终端报警数据:其中与窃漏电相关的报警能较好的识别用户的窃漏电行为(注:下图数据已做脱敏处理)
3.用户违约、窃电处理通知书,里面记录了用户的用电类别和窃电时间
挖掘目标
1.归纳出窃漏电用户的关键特征,构建窃漏电用户的识别模型;
2.利用实时监测数据,调用窃漏电用户识别模型实现实时诊断。
分析方法与过程
1)用电负荷不能直接体现出用户的窃漏电行为,终端报警存在很多误报和漏报的情况,故需要进行数据探索和预处理,总结窃漏电用户的行为规律,再从数据中提炼出描述窃漏电用户的特征指标。
2)结合历史窃漏电用户信息,整理出识别模型的专家样本数据集,再进一步构建分类模型,实现窃漏电用户的自动识别。
总体流程
收集数据
1.与窃漏电相关的原始数据主要有用电负荷数据、终端报警数据、违约窃电处罚信息以及用户档案资料等。
2.为了尽可能全面覆盖各种窃漏电方式,建模样本要包含不同用电类别的所有窃漏电用户及部分正常用户。窃漏电用户的窃漏电开始时间和结束时间是表征其窃漏电的关键时间节点,在这些时间节点上,用电负荷和终端报警等数据也会有一定的特征变化,故样本数据抽取时务必要包含关键时间节点前后一定范围的数据。
3.抽取近5年来所有的窃漏电用户有关数据和部分不同用电类别正常用电用户的有关数据。
初步分析
1.窃漏电用户分布分析。(注:上图数据已做脱敏处理)
2.用电量周期性分析
数据预处理
从业务以及建模的相关需要方面考虑,筛选出需要的数据
缺失值处理:在原始计量数据,特别是用户电量抽取过程中,发现存在缺失的现象。若将这些值抛弃掉,会严重影响后续分析结果。
这里我们使用拉格朗日插值法和牛顿插值法:
其中 为缺失值对应的下标序号,Ln(x)为缺失值的插值结果,xi为非缺失值yi的下标序号。
数据变换
1.电量趋势下降指标 :
从正常用电到窃漏电特征分析。
若电量趋势为不断下降的,则认为具有一定的窃电嫌疑
2. 线损指标:线损公式请查看专业书籍
3.告警类指标:
与窃漏电相关的终端报警主要有电压缺相、电压断相、电流反极性等告警,计算发生与窃漏电相关的终端报警的次数总和,作为告警类指标。
构建训练样本
对收集的所有窃漏电用户及部分正常用户的电量、告警及线损数据和该用户在当天是否窃漏电的标识,按窃漏电评价指标进行处理,得到数据训练样本库。
构建模型
对专家样本随机选取20%的作为测试样本,剩下80%的作为训练样本
LM神经网络建模
由混淆矩阵(训练样本),分类准确率为94.0%,正常用户被误判为窃漏电用户占正常用户的3.4%,窃漏电用户被误判为正常用户占正常窃漏电用户的2.6%。
CART决策树
由混淆矩阵(训练样本),分类准确率为95.3%,正常用户被误判为窃漏电用户占正常用户的1.3%,窃漏电用户被误判为正常用户占正常窃漏电用户的3.4%。
模型评价
1)用测试样本对两个模型进行评价,评价方法采用ROC曲线进行评估。
2)观测LM神经网络和CART决策树ROC曲线的CLASS2折线,经过对比发现LM神经网络的ROC曲线比CART决策树的ROC曲线更加靠近单位方形的左上角,LM神经网络ROC曲线下的面积更大,说明LM神经网络模型的分类性能较好,能应用于窃漏电用户识别。
领取专属 10元无门槛券
私享最新 技术干货