Apriori 算法 是 关联规则 挖掘算法 ,
关联规则 反映了 对象之间 相互依赖关系 ,
可以通过 一个对象 的行为或属性 预测 其它对象的行为或属性 ;
关联规则 不是 因果关系 , 有可能有因果关系 , 有可能没有 ;
如 : 购买商品时 , 啤酒 与 尿布 就有关联关系 , 这两个之间肯定没有因果关系 , 有一种未知的关联关系 ;
关联规则挖掘步骤 :
① 步骤一 : 找出 支持度
最小支持度阈值 的 频繁项集 ;
② 步骤二 : 根据 频繁模式 生成 满足 可信度阈值 的 关联规则 ;
数据集 与 事物 ( Transaction ) 概念 :
数据挖掘 数据集 由 事物 构成 ;
数据集 记做
;
使用事物表示 数据集 , 表示为
,
其中
称为事物 ;
每个事物可以使用 唯一的标识符 表示 事物编号 ( TID ) ;
项 ( Item ) 概念 :
每个 事物 ( Transaction ) 由多个 项 ( Item ) 组成 ;
项 记做
;
表示为
;
数据集
是所有 项
的集合 是
集合 ;
项集 ( Item Set ) 概念 :
中的 任意子集
, 称为 数据集
的 项集 ( Item Set ) ;
如果 项集 ( Item Set ) 中 项 ( Item ) 个数为
,
则称该 项集 ( Item Set ) 为
项集 ( k-itemset ) ;
频繁项集 : 频繁项集指的是出现次数较多的项集 ;
事物编号 | 事物 ( 商品 ) |
---|---|
001 001 001 | 奶粉 , 莴苣 |
002 002 002 | 莴苣 , 尿布 , 啤酒 , 甜菜 |
003 003 003 | 奶粉 , 尿布 , 啤酒 , 橙汁 |
004 004 004 | 奶粉 , 莴苣 , 尿布 , 啤酒 |
005 005 005 | 奶粉 , 莴苣 , 尿布 , 橙汁 |
奶粉 , 莴苣
莴苣 , 尿布 , 啤酒 , 甜菜
奶粉 , 尿布 , 啤酒 , 橙汁
奶粉 , 莴苣 , 尿布 , 啤酒
奶粉 , 莴苣 , 尿布 , 橙汁
整个 数据集
, 由
个事物 构成 ;
数据集 :
事物
:
事物
:
事物
:
事物
:
事物
:
上述 事物 集合中的元素
都称为项 ,
都是 项 ;
项集 : 任意不相同的项组成的集合就称为项集 , 上述
个元素的集合有
个项集 ; 参考集合幂集个数
是
项集 ;
是
项集 ;
是
项集 ;
是
项集 ;
是
项集 ;
是
项集 ;