前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 | 项 Item 概念 | 项集 Item Set | 频繁项集 | 示例解析 )

【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 | 项 Item 概念 | 项集 Item Set | 频繁项集 | 示例解析 )

作者头像
韩曙亮
发布2023-03-28 18:57:51
8980
发布2023-03-28 18:57:51
举报
文章被收录于专栏:韩曙亮的移动开发专栏

文章目录

一、 关联规则挖掘简介


Apriori 算法 是 关联规则 挖掘算法 ,

关联规则 反映了 对象之间 相互依赖关系 ,

可以通过 一个对象 的行为或属性 预测 其它对象的行为或属性 ;

关联规则 不是 因果关系 , 有可能有因果关系 , 有可能没有 ;

如 : 购买商品时 , 啤酒 与 尿布 就有关联关系 , 这两个之间肯定没有因果关系 , 有一种未知的关联关系 ;

关联规则挖掘步骤 :

① 步骤一 : 找出 支持度

\geq

最小支持度阈值 的 频繁项集 ;

② 步骤二 : 根据 频繁模式 生成 满足 可信度阈值 的 关联规则 ;

二、 数据集 与 事物 ( Transaction ) 概念


数据集 与 事物 ( Transaction ) 概念 :

数据挖掘 数据集 由 事物 构成 ;

数据集 记做

D

;

使用事物表示 数据集 , 表示为

D = \{ t_1 , t_2 , \cdots , t_n \}

,

其中

t_k , \ ( k = 1, 2, \cdots, n )

称为事物 ;

每个事物可以使用 唯一的标识符 表示 事物编号 ( TID ) ;

三、项 ( Item ) 概念


项 ( Item ) 概念 :

每个 事物 ( Transaction ) 由多个 项 ( Item ) 组成 ;

项 记做

i

;

表示为

t_k = \{ i_1 , i_2 , \cdots , i_n \}

;

数据集

D

是所有 项

i

的集合 是

I

集合 ;

四、项集 ( Item Set ) 概念


项集 ( Item Set ) 概念 :

I

中的 任意子集

X

, 称为 数据集

D

的 项集 ( Item Set ) ;

如果 项集 ( Item Set ) 中 项 ( Item ) 个数为

k

,

则称该 项集 ( Item Set ) 为

k

项集 ( k-itemset ) ;

五、频繁项集


频繁项集 : 频繁项集指的是出现次数较多的项集 ;

六、数据集、事物、项、项集合、项集 示例


事物编号

事物 ( 商品 )

001 001 001

奶粉 , 莴苣

002 002 002

莴苣 , 尿布 , 啤酒 , 甜菜

003 003 003

奶粉 , 尿布 , 啤酒 , 橙汁

004 004 004

奶粉 , 莴苣 , 尿布 , 啤酒

005 005 005

奶粉 , 莴苣 , 尿布 , 橙汁

001

奶粉 , 莴苣

002

莴苣 , 尿布 , 啤酒 , 甜菜

003

奶粉 , 尿布 , 啤酒 , 橙汁

004

奶粉 , 莴苣 , 尿布 , 啤酒

005

奶粉 , 莴苣 , 尿布 , 橙汁

整个 数据集

D

, 由

5

个事物 构成 ;

数据集 :

D = \{ t_1 , t_2 , t_3 , t_4, t_5 \}

事物

1

:

t_1 = \{ 奶粉 , 莴苣 \}

事物

2

:

t_2 = \{ 莴苣 , 尿布 , 啤酒 , 甜菜 \}

事物

3

:

t_3 = \{ 奶粉 , 尿布 , 啤酒 , 橙汁 \}

事物

4

:

t_4 = \{ 奶粉 , 莴苣 , 尿布 , 啤酒 \}

事物

5

:

t_5 = \{ 奶粉 , 莴苣 , 尿布 , 橙汁 \}

上述 事物 集合中的元素

i

都称为项 ,

奶粉 , 莴苣 , 尿布 , 啤酒 , 甜菜 , 橙汁

都是 项 ;

I = \{ 奶粉 , 莴苣 , 尿布 , 啤酒 , 甜菜 , 橙汁 \}

项集 : 任意不相同的项组成的集合就称为项集 , 上述

6

个元素的集合有

2^6

个项集 ; 参考集合幂集个数

\{ 奶粉 \}

1

项集 ;

\{ 尿布 , 啤酒 \}

2

项集 ;

\{ 莴苣 , 尿布 , 啤酒 \}

3

项集 ;

\{ 奶粉 , 莴苣 , 尿布 , 啤酒 \}

4

项集 ;

\{ 奶粉 , 莴苣 , 尿布 , 啤酒 , 甜菜 \}

5

项集 ;

\{ 奶粉 , 莴苣 , 尿布 , 啤酒 , 甜菜 , 橙汁 \}

6

项集 ;

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020-11-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 文章目录
  • 一、 关联规则挖掘简介
  • 二、 数据集 与 事物 ( Transaction ) 概念
  • 三、项 ( Item ) 概念
  • 四、项集 ( Item Set ) 概念
  • 五、频繁项集
  • 六、数据集、事物、项、项集合、项集 示例
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档