Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >基于模型的聚类和R语言中的高斯混合模型

基于模型的聚类和R语言中的高斯混合模型

作者头像
拓端
发布于 2020-07-16 15:16:11
发布于 2020-07-16 15:16:11
2K00
代码可运行
举报
文章被收录于专栏:拓端tecdat拓端tecdat
运行总次数:0
代码可运行

原文链接:http://tecdat.cn/?p=6105

介绍

聚类模型是一个概念,用于表示我们试图识别的聚类类型。四种最常见的聚类方法模型是层次聚类,k均值聚类,基于模型的聚类和基于密度的聚类

可以基于两个主要目标评估良好的聚类算法:

  • 高级内相似性
  • 低级间相似性

基于模型的聚类是迭代方法,通过优化聚类中数据集的分布,将一组数据集拟合到聚类中。高斯分布只不过是正态分布。此方法分三步进行:

  1. 首先随机选择高斯参数并将其拟合到数据点集。
  2. 迭代地优化分布参数以适应尽可能多的点。
  3. 一旦收敛到局部最小值,您就可以将数据点分配到更接近该群集的分布。

有关高斯混合模型的详细信息

基于概率模型的聚类技术已被广泛使用,并且已经在许多应用中显示出有希望的结果,从图像分割,手写识别,文档聚类,主题建模到信息检索。基于模型的聚类方法尝试使用概率方法优化观察数据与某些数学模型之间的拟合。

生成模型通常使用EM方法求解,EM方法是用于估计有限混合概率密度的参数的最广泛使用的方法。基于模型的聚类框架提供了处理此方法中的几个问题的主要方法,例如组件密度(或聚类)的数量,参数的初始值(EM算法需要初始参数值才能开始),以及分量密度的分布(例如,高斯分布)。EM以随机或启发式初始化开始,然后迭代地使用两个步骤来解决计算中的循环:

  • E-Step。使用当前模型参数确定将数据点分配给群集的预期概率。
  • M-Step。通过使用分配概率作为权重来确定每种混合物的最佳模型参数。

R中的建模

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
mb = Mclust(iris[,-5])

#定义聚类数
mb3 = Mclust(iris[,-5], 3)

# 最优模型
mb$modelName

# 最优聚类数
mb$G

# 每个聚类的概率
head(mb$z)



summary(mb, parameters = TRUE)



table(iris$Species, mb$classification)
# vs
table(iris$Species, mb3$classification)

比较每个群集中的数据量

在将数据拟合到模型中之后,我们基于聚类结果绘制模型。

让我们绘制估计的密度。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
plot(mb, "density")

您还可以使用该summary()函数来获取最可能的模型和最可能数量的集群。对于此示例,最可能的簇数为5,BIC值等于-556.1142。

比较聚类方法

在使用不同的聚类方法将数据拟合到聚类中之后,您可能希望测量聚类的准确性。在大多数情况下,您可以使用集群内集群间度量标准作为度量。集群间距离越高越好,集群内距离越低,越好。

接下来,检索聚类方法的集群验证统计信息:

通常,我们专注于使用within.cluster.ssavg.silwidth验证聚类方法。该within.cluster.ss测量表示所述簇内总和的平方,和avg.silwidth表示平均轮廓宽度

  • within.cluster.ss测量显示了相关对象在群集中的紧密程度; 值越小,集群中的对象越紧密。
  • avg.silwidth是一种度量,它考虑了群集中相关对象的紧密程度以及群集之间的分离方式。轮廓值通常为0到1; 接近1的值表明数据更好地聚类。

k-means和GMM之间的关系

K均值可以表示为高斯混合模型的特例。通常,高斯混合更具表现力,因为数据项对群集的成员资格取决于该群集的形状,而不仅仅取决于其接近度。

与k-means一样,用EM训练高斯混合模型可能对初始启动条件非常敏感。如果我们将GMM与k-means进行比较和对比,我们会发现前者的初始条件比后者更多。

结果

每个聚类被建模为多元高斯分布,并通过给出以下内容来指定模型:

  1. 集群数量。
  2. 每个群集中所有数据点的分数。
  3. 每个聚类的均值和它的d-by-d协方差矩阵。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-07-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 拓端数据部落 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
高斯混合模型 GMM 的详细解释
来源:机器学习杂货店本文约3500字,建议阅读10+分钟本文为你介绍 KMeans 的一个替代方案之一,高斯混合模型。 高斯混合模型(后面本文中将使用他的缩写 GMM)听起来很复杂,其实他的工作原理和 KMeans 非常相似,你甚至可以认为它是 KMeans 的概率版本。这种概率特征使 GMM 可以应用于 KMeans 无法解决的许多复杂问题。 因为KMeans的限制很多,比如:它假设簇是球形的并且大小相同,这在大多数现实世界的场景中是无效的。并且它是硬聚类方法,这意味着每个数据点都分配给一个集群,这也是不
数据派THU
2023/05/11
1.1K0
高斯混合模型 GMM 的详细解释
C++ OpenCV图像分割之高斯混合模型
前面一章我们学习了《C++ OpenCV图像分割之KMeans方法》,今天我们在学习一下高斯混合模型。
Vaccae
2019/07/24
1.5K0
使用高斯混合模型建立更精确的聚类
我真的很喜欢研究无监督学习问题。它们为监督学习问题提供了一个完全不同的挑战,用我拥有的数据进行实验的发挥空间要比监督学习大得多。毫无疑问,机器学习领域的大多数发展和突破都发生在无监督学习领域。
磐创AI
2019/11/18
1.2K0
使用高斯混合模型建立更精确的聚类
如何用高斯混合模型 GMM 做聚类
当我们在做聚类任务时, 如果每一类的分布已知的话,那么要求出每个样本属于哪一类, 只需要计算出它归属于 k 个不同簇的概率,然后选择概率值最高的那个簇作为它最终的归属即可。
杨熹
2018/12/26
2.1K0
如何利用高斯混合模型建立更好、更精确的集群?
高斯混合模型是一种强大的聚类算法。本文将带你了解高斯混合模型的工作原理以及如何在 Python 中实现它们,我们还将讨论 k-means 聚类算法,看看高斯混合模型是如何对它进行改进的。
AI研习社
2019/12/10
9420
数据分析师必须掌握5种常用聚类算法
给定一组数据点,我们可以使用聚类算法将每个数据点分类到一个特定的簇中。理论上,属于同一类的数据点应具有相似的属性或特征,而不同类中的数据点应具有差异很大的属性或特征。
1480
2019/07/15
1.5K0
数据分析师必须掌握5种常用聚类算法
技术干货 | 一文详解高斯混合模型原理
高斯混合模型(Gaussian Mixture Model)通常简称GMM,是一种业界广泛使用的聚类算法,该方法使用了高斯分布作为参数模型,并使用了期望最大(Expectation Maximization,简称EM)算法进行训练。本文对该方法的原理进行了通俗易懂的讲解,期望读者能够更直观地理解方法原理。文本的最后还分析了高斯混合模型与另一种常见聚类算法K-means的关系,实际上在特定约束条件下,K-means算法可以被看作是高斯混合模型(GMM)的一种特殊形式(达观数据 陈运文)。 什么是高斯分布?
达观数据
2018/03/30
2.4K0
技术干货 | 一文详解高斯混合模型原理
推荐|数据科学家需要了解的5大聚类算法
IT派 - {技术青年圈} 持续关注互联网、大数据、人工智能领域 聚类是一种涉及数据点分组的机器学习技术。给定一个数据点集,则可利用聚类算法将每个数据点分类到一个特定的组中。理论上,同一组数据点具有
IT派
2018/03/27
1.1K0
推荐|数据科学家需要了解的5大聚类算法
高斯混合模型与EM算法的数学原理及应用实例
http://www.tensorinfinity.com/paper_171.html
SIGAI学习与实践平台
2019/06/18
2K0
高斯混合模型与EM算法的数学原理及应用实例
混合高斯模型(GMM)
【摘要】 1 GMM基础高斯混合模型(GMM)指的是多个高斯分布函数的线性组合,理论上GMM可以拟合出任意类型的分布,通常用于解决同一集合下的数据包含多个不同的分布的情况。为什么GMM可以拟合出任意类型的分布?不仅GMM可以,只要性质不太奇怪的混合模型一般都能近似任意分布。这个思想和泰勒展开、傅里叶变换是类似的,任何波形都可以用正弦波叠加表示,而且频率还是基频的整数倍。利用高斯混合模型进行聚类,本质上...
玖柒的小窝
2021/09/16
1.5K0
混合高斯模型(GMM)
收藏!!无监督机器学习中,最常见的聚类算法有哪些?
但是,大多数情况下,在处理实际问题时,数据不会带有预定义标签,因此我们需要开发能够对这些数据进行正确分类的机器学习模型,通过发现这些特征中的一些共性,来预测新数据的类。
商业新知
2019/04/08
2.4K0
收藏!!无监督机器学习中,最常见的聚类算法有哪些?
Must Know! 数据科学家们必须知道的 5 种聚类算法
聚类是一种关于数据点分组的机器学习技术。给出一组数据点,我们可以使用聚类算法将每个数据点分类到特定的组中。理论上,同一组中的数据点应具有相似的属性或特征,而不同组中的数据点应具有相当不同的属性或特征(即类内差异小,类间差异大)。聚类是一种无监督学习方法,也是一种统计数据分析的常用技术,被广泛应用于众多领域。 在数据科学中,我们可以通过聚类算法,查看数据点属于哪些组,并且从这些数据中获得一些有价值的信息。今天,我们一起来看看数据科学家需要了解的 5 种流行聚类算法以及它们的优缺点。 一、K 均值聚类 K-
AI研习社
2018/03/28
1.3K0
Must Know! 数据科学家们必须知道的 5 种聚类算法
机器学习day15高斯混合模型
高斯混合模型(Gaussian Mixed Model,GMM)也是常见的聚类算法。使用EM算法进行迭代计算。高斯混合模型假设了每个簇的数据符合正态分布(高斯分布),当前的数据分布就是各个簇的高斯分布叠加在一起。
福贵
2020/08/26
7100
机器学习day15高斯混合模型
机器学习22:概率图--EM算法与GMM(高斯混合模型)
EM算法(Expectation Maximization Algorithm, 最大期望算法)是一种迭代类型的算法,是一种在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐藏变量。
用户5473628
2019/08/08
2.6K0
机器学习22:概率图--EM算法与GMM(高斯混合模型)
【数据挖掘】高斯混合模型 ( 模型简介 | 软聚类 | 概率作用 | 高斯分布 | 概率密度函数 | 高斯混合模型参数 | 概率密度函数 )
1 . 高斯混合模型 与 K-Means 相同点 : 高斯混合模型方法 与 K-Means 方法 , 都是通过多次迭代 , 每次迭代都对聚类结果进行改进 , 最终达到算法收敛 , 聚类分组结果达到最优 ;
韩曙亮
2023/03/27
1.9K0
独家 | 如何正确选择聚类算法?
数据聚类是搭建一个正确数据模型的重要步骤。数据分析应当根据数据的共同点整理信息。然而主要问题是,什么通用性参数可以给出最佳结果,以及什么才能称为“最佳”。
数据派THU
2019/10/16
1.2K0
独家 | 如何正确选择聚类算法?
机器学习高斯混合模型:聚类原理分析(前篇)
交流思想,注重分析,更注重通过实例让您通俗易懂。包含但不限于:经典算法,机器学习,深度学习,LeetCode 题解,Kaggle 实战。期待您的到来! 01 — 回顾 近几天,分析了期望最大算法的基本思想,它是用来迭代求解隐式变量的利器,我们举例了两地的苹果好坏分布为例来求解隐式参数,苹果的出处,进而求出烟台或威海的苹果好坏的二项分布的参数:好果的概率。关于二项分布和离散式随机变量的基础理论知识,请参考: 机器学习储备(11):说说离散型随机变量 机器学习储备(12):二项分布的例子解析 注意在求解烟台或威
double
2018/04/02
1.7K0
机器学习高斯混合模型:聚类原理分析(前篇)
K-Means(K均值)、GMM(高斯混合模型),通俗易懂,先收藏了!
什么是聚类算法?聚类是一种机器学习技术,它涉及到数据点的分组。给定一组数据点,我们可以使用聚类算法将每个数据点划分为一个特定的组。理论上,同一组中的数据点应该具有相似的属性和/或特征,而不同组中的数据点应该具有高度不同的属性和/或特征。聚类是一种无监督学习的方法,是许多领域中常用的统计数据分析技术。
mantch
2019/07/30
6.7K0
K-Means(K均值)、GMM(高斯混合模型),通俗易懂,先收藏了!
使用Python实现高斯混合模型聚类算法
高斯混合模型(Gaussian Mixture Model,GMM)是一种基于概率分布的聚类方法,它假设数据集由若干个高斯分布组成,每个高斯分布代表一个簇。在本文中,我们将使用Python来实现一个基本的高斯混合模型聚类算法,并介绍其原理和实现过程。
Echo_Wish
2024/04/15
5930
什么是高斯混合模型
机器学习可以分为两个主要领域:有监督学习和无监督学习。两者的主要区别在于数据的性质以及处理数据的方法。聚类是一个无监督学习的算法,利用这个算法可以从数据集里找到具有共性的点簇。假设我们有一个如下所示的数据集:
老齐
2020/09/08
1.5K0
推荐阅读
相关推荐
高斯混合模型 GMM 的详细解释
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档