新杰
每天一篇原创001
2017年12月27日
编辑:大友
关联规则算法介绍
规则是什么?
具体来说:形如逻辑语句”如果,那么.(If, Then.)”,前是条件,后是结果。关联规则用于挖掘并找寻给定数据集中项之间的有意义的关联和关系。
关联规则呈现了数据集间的未知的依赖关系,经过挖掘的关联关系,可以从一个数据对象的信息推导出另一个数据对象的信息。例如购物车分析:牛奶 -> 面包 (支持度:3%,置信度:40%)
支持度3%意味顾客人数的3%同时购买牛奶和面包。置信度40%意味购买牛奶的顾客中40%也购买面包。规则的支持度和置信度是两个规则度量,它们分别反映规则的有用性和确定性。
关联规则如果满足最小支持度阈值和最小置信度阈值,则是有意义的。这些阈值可以由用户或领域专家设定。
相关的定义:
定义1: 支持度(Support)
支持度s是事务数据库中包含A U B的事务百分比,它是概率P(A U B),即Support(AB)= P(A U B),它描述了A和B这两个物品集的并集在所有的事务中出现的概率。
定义2: 置信度(Confidence)
可信度为事务数据库中包含A的事务中同时也包含B的百分比,它是概率P(B|A),即Confidence(A B)= P(B|A)。
领取专属 10元无门槛券
私享最新 技术干货