近些年,海量数据的广泛存在使得数据质量的重要性再一次被提及。基于此,大量的数据清洗方法被提出,其中包括基于定义的完整性约束对数据进行错误检测和修复、引入外部知识(如知识库,字典,请教专家)来匹配和修复错误信息、利用定量统计进行异常值检测和修复等方法。然而,这些方法由于只根据单个信息源来修复数据,它们并不能保证修复的全面性和可靠性。因此,为了使修复结果更加准确可靠,本文提出了一个全面修复数据的框架HoloClean,该框架立足于将多种数据清洗方法整合到一起,从而利用多种方法给出的多种信息来产生错误的最佳修复。HoloClean框架利用编译生成概率图模型,并将多种数据清洗方法作为修复信号整合到该概率图模型中。
这些数据修复信号包括
(1)定量统计
(2)外部数据
(3)完整性约束依赖
(4)最小修复原则。
HoloClean通过对少量数据集的训练得到对上述不同修复信号的依赖权重,从而对每一个错误产生最适合的修复。由于HoloClean的修复结果是多种数据清洗方法综合产生的结果,其修复效果比单一的数据清洗方法好。
实验表明该方法的平均准确度能达到90%,平均召回率能达到76%,平均F1则是其他方法的两倍。而HoloClean可以自定义调整每个数据修复信号的权重大小的特点也使得其面对不同类型的数据修复任务具有更强的适应性。
“大数据与数据科学家”公众号
主编:王宏志
特邀副主编: 朱劼
副主编: 丁小欧
责任编辑: 齐志鑫,宋扬
编辑: 陶颖安
-精彩内容,记得分享到朋友圈-
领取专属 10元无门槛券
私享最新 技术干货