参考博客 :
关联规则 是指 :
某些 项集 出现在一个 事务 中 ,
可以推导出 :
另外一些 项集 也出现在同一个 事务 中 ;
如 : 事物
:
项集 出现在购买清单 事务
中 ,
项集 也出现在购买清单 事务
中 ;
支持度 表示 数据项 ( Item ) 在 事务 ( Transaction ) 中的 出现频度 ;
支持度公式 :
指的是
项集的支持度 ;
指的是 数据集
中含有项集
的事务个数 ;
指的是 数据集
的事务总数 ;
数据集
为 :
事物编号 | 事物 ( 商品 ) |
---|---|
001 001 001 | 奶粉 , 莴苣 |
002 002 002 | 莴苣 , 尿布 , 啤酒 , 甜菜 |
003 003 003 | 奶粉 , 尿布 , 啤酒 , 橙汁 |
004 004 004 | 奶粉 , 莴苣 , 尿布 , 啤酒 |
005 005 005 | 奶粉 , 莴苣 , 尿布 , 橙汁 |
奶粉 , 莴苣
莴苣 , 尿布 , 啤酒 , 甜菜
奶粉 , 尿布 , 啤酒 , 橙汁
奶粉 , 莴苣 , 尿布 , 啤酒
奶粉 , 莴苣 , 尿布 , 橙汁
项集
, 求该项集的支持度
根据上述公式
计算支持度 ;
指的是 数据集
中含有项集
的事务个数 ;
含有
项集的事务有 事务
, 事务
, 事务
, 事务
, 得出 :
指的是 数据集
的事务总数 ; 得出
则计算支持度 :
关联规则
的支持度 ,
等于 项集
的支持度 ;
公式为 :
示例 : 数据集
为 :
事物编号 | 事物 ( 商品 ) |
---|---|
001 001 001 | 奶粉 , 莴苣 |
002 002 002 | 莴苣 , 尿布 , 啤酒 , 甜菜 |
003 003 003 | 奶粉 , 尿布 , 啤酒 , 橙汁 |
004 004 004 | 奶粉 , 莴苣 , 尿布 , 啤酒 |
005 005 005 | 奶粉 , 莴苣 , 尿布 , 橙汁 |
奶粉 , 莴苣
莴苣 , 尿布 , 啤酒 , 甜菜
奶粉 , 尿布 , 啤酒 , 橙汁
奶粉 , 莴苣 , 尿布 , 啤酒
奶粉 , 莴苣 , 尿布 , 橙汁
求关联规则
的支持度
上述问题等价于 , 项集
的支持度 ;
根据上述公式
计算支持度 ;
指的是 数据集
中含有项集
的事务个数 ;
含有
项集的事务有 事务
, 事务
, 事务
, 得出 :
指的是 数据集
的事务总数 ; 得出
则计算支持度 :