前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则 | 数据项支持度 | 关联规则支持度 )

【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则 | 数据项支持度 | 关联规则支持度 )

作者头像
韩曙亮
发布2023-03-28 18:58:15
1.3K0
发布2023-03-28 18:58:15
举报
文章被收录于专栏:韩曙亮的移动开发专栏

文章目录

参考博客 :

一、 关联规则


关联规则 是指 :

某些 项集 出现在一个 事务 中 ,

可以推导出 :

另外一些 项集 也出现在同一个 事务 中 ;

如 : 事物

2

:

t_2 = \{ 莴苣 , 尿布 , 啤酒 , 甜菜 \}
\{ 啤酒 \}
1

项集 出现在购买清单 事务

2

中 ,

\{ 尿布 \}
1

项集 也出现在购买清单 事务

2

中 ;

二、 数据项支持度


支持度 表示 数据项 ( Item ) 在 事务 ( Transaction ) 中的 出现频度 ;

支持度公式 :

\rm Support (X) = \cfrac{count (X)}{count (D)}
\rm Support (X)

指的是

\rm X

项集的支持度 ;

\rm count (X)

指的是 数据集

\rm D

中含有项集

\rm X

的事务个数 ;

\rm count(D)

指的是 数据集

\rm D

的事务总数 ;

示例 : 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 | 项 Item 概念 | 项集 Item Set | 频繁项集 | 示例解析 ) 六、数据集、事物、项、项集合、项集 示例

数据集

\rm D

为 :

事物编号

事物 ( 商品 )

001 001 001

奶粉 , 莴苣

002 002 002

莴苣 , 尿布 , 啤酒 , 甜菜

003 003 003

奶粉 , 尿布 , 啤酒 , 橙汁

004 004 004

奶粉 , 莴苣 , 尿布 , 啤酒

005 005 005

奶粉 , 莴苣 , 尿布 , 橙汁

001

奶粉 , 莴苣

002

莴苣 , 尿布 , 啤酒 , 甜菜

003

奶粉 , 尿布 , 啤酒 , 橙汁

004

奶粉 , 莴苣 , 尿布 , 啤酒

005

奶粉 , 莴苣 , 尿布 , 橙汁

项集

\rm X=\{ 奶粉 \}

, 求该项集的支持度

\rm ?

根据上述公式

\rm Support (X) = \cfrac{count (X)}{count (D)}

计算支持度 ;

\rm count (X)

指的是 数据集

\rm D

中含有项集

\rm X

的事务个数 ;

含有

\rm X=\{ 奶粉 \}

项集的事务有 事务

\rm 1

, 事务

3

, 事务

4

, 事务

5

, 得出 :

\rm count (X) = 4
\rm count(D)

指的是 数据集

\rm D

的事务总数 ; 得出

\rm count(D) = 5

则计算支持度 :

\rm Support (X) = \cfrac{count (X)}{count (D)}
\rm Support (X) = \cfrac{4}{5}

三、 关联规则支持度


关联规则

\rm X \Rightarrow Y

的支持度 ,

等于 项集

\rm X \cup Y

的支持度 ;

公式为 :

\rm Support (X \Rightarrow Y) = Support (X \cup Y) = \cfrac{count (X \cup Y)}{count (D)}

示例 : 数据集

\rm D

为 :

事物编号

事物 ( 商品 )

001 001 001

奶粉 , 莴苣

002 002 002

莴苣 , 尿布 , 啤酒 , 甜菜

003 003 003

奶粉 , 尿布 , 啤酒 , 橙汁

004 004 004

奶粉 , 莴苣 , 尿布 , 啤酒

005 005 005

奶粉 , 莴苣 , 尿布 , 橙汁

001

奶粉 , 莴苣

002

莴苣 , 尿布 , 啤酒 , 甜菜

003

奶粉 , 尿布 , 啤酒 , 橙汁

004

奶粉 , 莴苣 , 尿布 , 啤酒

005

奶粉 , 莴苣 , 尿布 , 橙汁

求关联规则

\rm 尿布 \Rightarrow 啤酒

的支持度

?

上述问题等价于 , 项集

\rm X=\{ 尿布 , 啤酒 \}

的支持度 ;

根据上述公式

\rm Support (X \Rightarrow Y) = Support (X \cup Y) = \cfrac{count (X \cup Y)}{count (D)}

计算支持度 ;

\rm count (X \cup Y)

指的是 数据集

\rm D

中含有项集

\rm X \cup Y

的事务个数 ;

含有

\rm X \cup Y=\{ 尿布 , 啤酒 \}

项集的事务有 事务

\rm 2

, 事务

3

, 事务

4

, 得出 :

\rm count (X \cup Y) = 3
\rm count(D)

指的是 数据集

\rm D

的事务总数 ; 得出

\rm count(D) = 5

则计算支持度 :

\rm Support (X \Rightarrow Y) = Support (X \cup Y) = \cfrac{count (X \cup Y)}{count (D)}
\rm Support (X) = Support (X \cup Y) = \cfrac{3}{5}
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020-11-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 文章目录
  • 一、 关联规则
  • 二、 数据项支持度
  • 三、 关联规则支持度
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档