前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >关联分析(1):概念及应用

关联分析(1):概念及应用

作者头像
三猫
发布于 2018-07-23 09:33:57
发布于 2018-07-23 09:33:57
1.7K0
举报
关联分析(Association Analysis)是一种常用的挖掘算法,用来挖掘数据之间的内在关联。逻辑简单,但是功能强大,可以在诸多领域进行使用。本篇为关联分析系列的第一篇,主要介绍关联分析的应用场景,和了解关联分析必须知道的基本概念思路

应用场景

关联分析应用在项不多的情况下,从整体数据中挖掘潜在关联。具体应用场景可分为如下几个:

  1. 产品推荐与引导。关联分析做推荐时,主要用于个性化不强的场景。比如根据购买记录,通过关联分析发现群体购买习惯的内在共性,指导超市产品摆放。对于偏个性化场景,比如给目标用户推荐产品,可以先找出购买习惯与目标用户相似的人群,对此特定人群的购买记录进行关联分析,然后将分析出的规则与目标用户的购买记录结合,进行推荐。
  2. 发掘潜在客户,精准营销。当通过关联分析,发现许多购买A的用户还会购买B,即有规则A—>B,可通过有购买B产品行为的用户,找到A产品的潜在意向用户,进行精准营销。
  3. 特征筛选。在特征工程中,需要对特征进行筛选。对特征筛选包括:保留与目标变量关联大的特征,删除高度相关的特征。在一般使用的相关性系数方法中,只能判断两个变量间的相关性,而通过关联分析得到的规则,可以判断多个变量之间的关系。比如针对规则{x1,x2}—>{x3},则可能存在x3不能与{x1,x2}同时放入模型中的可能性;针对规则{x4,x5}—>{y1},则可能x4,x5同时放入模型时,会有较好的结果。

基本概念

关联分析中,涉及到一些基本概念。假设有如下数据,则每行表示一个事务,每列表示一个,包含k个项的集合称为k项集

关联规则。关联规则是形如X->Y的表达式,如:{crime = y, immigration = no} -> {Democrat}。X称为前件,Y称为后件,X和Y不包含相同的项。

支持度(support)。支持度指X,Y中的项,同时出现的事务数占总事务数的比例。由于同时出现{crime = y, immigration = no}和{Democrat}的事务数为1,总事务数为4,所以规则的支持度为1/4=0.25。

置信度(confidence)。置信度指Y在包含X的事务中,出现占比。{crime = y, immigration = no}出现的事务数为2,因此规则的置信度为1/2=0.5。

支持度用来删除无意义的规则,置信度越高,表示Y在包含X的事务中出现的可能性越大。关联规则表示X,Y较容易同时出现,但是不代表有必然的因果关系。

关联规则挖掘。给定支持度阈值minsup,和置信度阈值minconf,关联规则挖掘指找到支持度>minsup,置信度>minconf的规则。

规则产生思路

规则产生的原始方法是计算每个可能规则的支持度和置信度。但是当项数增多时,可能的规则总数会以指数增长,带来巨大开销,且因阈值的限制,会导致很多开销是无用的,因此需要对规则产生思路进行优化。

通常采用的策略为拆分支持度和置信度要求。先找到满足支持度>minsup的所有项集,即频繁项集,再从频繁项集中找到满足置信度>minconf的规则。进行这样的任务分解,可以满足规则发现的原因在于,对于规则:

{crime = y, immigration = no} -> {Democrat}

{Democrat} -> {crime = y, immigration = no}

{Democrat, immigration = no} -> {crime = y}

{crime = y} -> {Democrat, immigration = no}

{Democrat, crime = y} -> {immigration = no}

{immigration = no} -> {Democrat, crime = y}

他们的支持度仅依赖于项集{Democrat, crime = y, immigration = n},如果此项集是非频繁的,则由此项集可以产生的上述6条规则,都将不满足minsup要求,因此不必再计算他们的置信度。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-05-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习养成记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
关联分析(3):Apriori R语言实现
我们对UCI机器学习库上下载的美国众议院议员投票记录数据,进行关联分析。在R中,可以直接调用arules包中的apriori()函数训练模型。
三猫
2018/07/23
1.2K0
关联分析(3):Apriori R语言实现
【数据挖掘】关联规则挖掘 Apriori 算法 ( 频繁项集 | 非频繁项集 | 强关联规则 | 弱关联规则 | 发现关联规则 )
文章目录 一、 频繁项集 二、 非频繁项集 三、 强关联规则 四、 弱关联规则 五、 发现关联规则 参考博客 : 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 | 项 Item 概念 | 项集 Item Set | 频繁项集 | 示例解析 ) 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则 | 数据项支持度 | 关联规则支持度 ) 【数据挖掘】关联规则挖掘 Apriori 算法 ( 置信度 | 置信度示例 ) 一、 频繁项
韩曙亮
2023/03/28
2.1K0
关联规则挖掘(一)
分别称为关联规则的先导 (Antecedent) 和后继 (Consequent)。
Francek Chen
2025/01/22
960
关联规则挖掘(一)
数据挖掘十大算法(四):Apriori(关联分析算法)
终于到了机器学习实战的第十一章了,这也是继K-均值后的第二个无监督学习算法了。同样的该算法也是在一堆数据集中寻找数据之间的某种关联,这里主要介绍的是叫做Apriori的‘一个先验’算法,通过该算法我们可以对数据集做关联分析——在大规模的数据中寻找有趣关系的任务,本文主要介绍使用Apriori算法发现数据的(频繁项集、关联规则)。
全栈程序员站长
2022/08/14
2K0
数据挖掘十大算法(四):Apriori(关联分析算法)
机器学习算法:关联规则分析
今天给大家分享一个经典的机器学习算法:关联规则分析,从理论到代码到实战,全部拉满。
皮大大
2022/04/18
2.1K0
机器学习算法:关联规则分析
让机器猜猜你喜欢的歌手-R关联分析
作者 CDA 数据分析师 关联规则挖掘是数据挖掘中成果颇丰而且比较活跃的研究分支。采用关联模型比较典型的案例是“尿布与啤酒”的故事。在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,超市也因此发现了一个规律,在购买婴儿尿布的年轻父亲们中,有30%~40%的人同时要买一些啤酒。超市随后调整了货架的摆放,把尿布和啤酒放在一起,明显增加了销售额。同样的,我们还可以根据关联规则在商品销售方面做各种促销活动。 除此以外,关联规则挖掘还经常被用于: · 电信套餐的捆绑销售 · 歌曲推荐或者视频的“猜你喜
CDA数据分析师
2018/02/26
9110
让机器猜猜你喜欢的歌手-R关联分析
【独家】一文读懂关联分析
前言 关联分析是数据挖掘中一项基础又重要的技术,是一种在大型数据库中发现变量之间有趣关系的方法。说到数据挖掘的案例,相信很多人都会首先想到沃尔玛超市发现购买尿布的顾客通常也会购买啤酒,于是把啤酒和尿布放在一起销售同时提高了两者的销量的案例。这是关联分析在商业领域应用的一个典型,通过对大量商品记录作分析,提取出能够反映顾客偏好的有用的规则。有了这些关联规则,商家制定相应的营销策来来提高销售量。关联技术不但在商业领域被广泛应用,在医疗,保险,电信和证券等领域也得到了有效的应用。本文将对数据挖
数据派THU
2018/01/29
2K0
Python数据分析基础之关联分析Apriori
关联分析(Association Analysis)主要用于发现隐藏在大型数据集中的有意义的联系,它起源于商品销售领域,“啤酒与尿布”的故事体现的就是数据分析/挖掘领域非常经典的推荐方式,而现在各类互联网公司的推荐系统都有关联分析的影子。
蛰虫始航
2019/10/11
1.7K0
关联规则(一):基本原理
参数化方法包括分类、回归等模型,优点是用少量的参数简化了建模问题,主要缺点是初始假设在许多实际问题中不成立,导致误差过大。
fireWang
2019/05/15
3.2K0
使用Apriori进行关联分析(如何挖掘关联规则)
  所谓关联规则,指通过某个元素集推导出另一个元素集。比如有一个频繁项集{底板,胶皮,胶水},那么一个可能的关联规则是{底板,胶皮}→{胶水},即如果客户购买了底板和胶皮,则该客户有较大概率购买胶水。这个频繁项集可以推导出6个关联规则:
统计学家
2019/04/10
1.2K0
使用Apriori进行关联分析(如何挖掘关联规则)
[机器学习算法]关联分析
全球零售巨头沃尔玛分析消费者购物行为时偶然发现男性顾客同时购买啤酒和尿布的比例较高,于是通过将啤酒和尿布捆绑销售的方式提高了两者的销量。这种用于发现隐藏在大型数据集中的有意义联系的分析方法即是关联分析association analysis,所发现的规则可以用关联规则association rule或频繁项集的形式表示:
TOMOCAT
2020/06/09
1.4K0
[机器学习算法]关联分析
关联规则挖掘:Apriori算法的深度探讨
Apriori算法是一种用于挖掘数据集中频繁项集的算法,进而用于生成关联规则。这种算法在数据挖掘、机器学习、市场篮子分析等多个领域都有广泛的应用。
TechLead
2023/10/21
1.1K0
关联规则挖掘:Apriori算法的深度探讨
机器学习实战 - 读书笔记(11) - 使用Apriori算法进行关联分析
前言 最近在看Peter Harrington写的“机器学习实战”,这是我的学习心得,这次是第11章 - 使用Apriori算法进行关联分析。 基本概念 关联分析(association analysis)或者关联规则学习(association rule learning) 这是非监督学习的一个特定的目标:发现数据的关联(association)关系。简单的说,就是那些数据(或者数据特征)会一起出现。 关联分析的目标包括两项:发现频繁项集和发现关联规则。首先需要找到频繁项集,然后才能获得关联规则。
绿巨人
2018/05/17
1.2K0
【机器学习实战】第11章 使用 Apriori 算法进行关联分析
第 11 章 使用 Apriori 算法进行关联分析 关联分析 关联分析是一种在大规模数据集中寻找有趣关系的任务。 这些关系可以有两种形式: 频繁项集(frequent item sets): 经常
片刻
2018/01/15
1.9K0
【机器学习实战】第11章 使用 Apriori 算法进行关联分析
关联分析(一):频繁项集及规则产生【转载】
关联分析用于发现隐藏在大型数据集中有意义的联系,属于模式挖掘分析方法,其为人熟知的经典应用当属沃尔玛超市里“啤酒与尿布”的关系挖掘了。关联分析的应用领域非常多,当数据集类型比较复杂时,进行关联分析采用的手段也相对复杂,本篇从最简单的事务数据集着手,对关联分析进行解读。对大型事务数据集进行关联分析时,有两个问题要考虑:
用户6021899
2019/10/23
2.7K0
关联分析(一):频繁项集及规则产生【转载】
数据挖掘实战:关联规则挖掘及Apriori实现购物推荐
糖豆贴心提醒,本文阅读时间4分钟 这篇文章主要介绍三个知识: 1.关联规则挖掘概念及实现过程; 2.Apriori算法挖掘频繁项集; 3.Python实现关联规则挖掘及置信度、支持度计算。 希望这篇文章对你有所帮助,尤其是刚刚接触数据挖掘以及大数据的同学,这些基础知识真的非常重要。如果文章中存在不足或错误的地方,还请海涵~ 一. 关联规则挖掘概念及实现过程 1.关联规则 关联规则(Association Rules)是反映一个事物与其他事物之间的相互依存性和关联性,如果两个或多个事物之
小小科
2018/05/02
3.2K0
数据挖掘实战:关联规则挖掘及Apriori实现购物推荐
机器学习(八)—Apriori算法
摘要:本文对Apriori算法进行了简单介绍,并通过Python进行实现,进而结合UCI数据库中的肋形蘑菇数据集对算法进行验证。
oYabea
2020/09/07
7780
寻找商品间的联系:频繁项集挖掘与关联分析
我们常常会在管理中遇到这样的问题,超市如何能通过用户购买数据来提高利润。如何将数据转化为利润,用好这些数据。 我们这里提出一种关联分析方法,可以从用户的购买数据中得到,其一般购买了商品A的同时,也会对商品B有需求,而一旦将A和B捆绑或靠近在一起销售,并以一定的折扣来刺激消费,这样能够得到更可观的销量。那么如何能够找到频繁出现被人购买的商品,并且从中抽取出若干件商品的关联关系,这就是我们今天要讨论的问题。 假设已经有了一份数据集,其中的每条记录都是一人次用户购买的商品清单。 使用Apriori算法进行关联:
微风、掠过
2018/04/10
1.3K0
寻找商品间的联系:频繁项集挖掘与关联分析
【数据挖掘 | 关联性分析】万字长文详解关联性分析,详解Apriori算法为例,确定不来看看?
数据挖掘中的关联分析是一种用于发现数据集中不同项之间的关联关系的方法。关联分析通常用于在大规模数据集中发现频繁项集和关联规则。总的来说,关联规则通过量化的数字决定某物品甲对物品乙的出现有多大的影响。该模式属于描述性模式,属于**无监督学习**的方法
计算机魔术师
2023/10/26
4.3K0
【数据挖掘 | 关联性分析】万字长文详解关联性分析,详解Apriori算法为例,确定不来看看?
关联分析(2):Apriori产生频繁项集
在关联分析(1):概念及应用中,我们介绍了关联分析的应用场景、基本概念和规则产生思路。在本次的文章中,我们将介绍Apriori算法频繁项集产生的原理。文章中会涉及专有名词,不清楚概念的可在上一篇文章中查看。
三猫
2018/07/23
1.4K0
关联分析(2):Apriori产生频繁项集
推荐阅读
相关推荐
关联分析(3):Apriori R语言实现
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档