首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【数据挖掘】高斯混合模型 ( 模型简介 | 软聚类 | 概率作用 | 高斯分布 | 概率密度函数 | 高斯混合模型参数 | 概率密度函数 )

【数据挖掘】高斯混合模型 ( 模型简介 | 软聚类 | 概率作用 | 高斯分布 | 概率密度函数 | 高斯混合模型参数 | 概率密度函数 )

作者头像
韩曙亮
发布2023-03-27 19:54:43
发布2023-03-27 19:54:43
2K0
举报

文章目录

I . 高斯混合模型方法 ( GMM )

1 . 高斯混合模型 与 K-Means 相同点 : 高斯混合模型方法 与 K-Means 方法 , 都是通过多次迭代 , 每次迭代都对聚类结果进行改进 , 最终达到算法收敛 , 聚类分组结果达到最优 ;

2 . 高斯混合模型 与 K-Means 不同点 :

① K-Means 方法 : 使用 K-Means 方法的 聚类结果是 某个样本 被指定到 某个聚类分组中 ;

② 高斯混合模型 : 高斯混合模型的聚类分析结果是 , 某个样本 被分到了 某个聚类分组 中 , 但是除此之外还给出了 该样本 属于 该聚类概率 , 意思是 该样本 并不是 一定属于该聚类 , 而是有一定几率属于 ;

③ 高斯混合模型 应用场景 : 高斯混合模型 需要训练学习出 概率密度函数 , 该方法除了用于 聚类分析 外 , 还可以用于 密度估计 等用途 ;

II . 硬聚类 与 软聚类

硬聚类 与 软聚类 :

① 硬聚类 (硬指派 ) : K-Means 方法中 , 每个数据集样本 , 都被指派了一个聚类分组 ;

② 软聚类 ( 软指派 ) : 高斯混合模型方法中 , 每个数据集样本 , 也都被指派了一个聚类分组 , 此外还指定了该样本属于该聚类分组的概率 , 即该样本不一定属于该聚类分组 , 有一定几率属于其他聚类分组 ;

③ 硬指派概率 : 硬指派中 , 样本如果属于某个聚类分组 , 就是 100% 属于 , 如果不属于某聚类 , 就是 0% 属于 , 没有概率的概念 ;

III . GMM 聚类结果概率的作用

1 . 概率信息 : 高斯混合模型 方法 的 聚类结果 附带 样本 属于 聚类 的 概率 , 其包含的信息量 远远高于 K-Means 方法的 单纯的样本聚类分组 ;

2 . 聚类概率 : 聚类算法并不是万能的 , 不能保证 100% 准确 , 这里可以将 高斯混合模型 样本 的 聚类分组 概率值 , 转为一个评分 , 用该评分表示 聚类结果 的准确性 ;

3 . 评分作用 : 同一个聚类分析 , 使用不同的方法 , 得到 多个结果 , 每个结果都有 聚类概率 转化的一个评分 , 可以将 聚类结果评分 最高的那个结果 当做 最终结果 ;

4 . 示例 : 疾病诊断场景 , 为病人样本进行聚类分组 , 最终结果是

49\%

的概率分到得病的聚类分组 ,

51\%

分到不得病的聚类分组 , 如果靠机器判定该病人样本是否得病 , 风险太大了 , 这里保守的方法是计算机给出意见 , 但是不能下决定 , 让医生根据这个 聚类 和 概率 进行后续的诊断治疗工作 ;

IV . 高斯混合分布

高斯混合分布 概念 : 高斯混合模型 数据集样本 服从 高斯混合分布 ;

① 高斯分布 : 又叫 正态分布 , 常态分布 ; 高斯分布曲线两头低 , 中间高 , 呈钟形 , 又叫钟形曲线 ;

② 高斯混合分布 :

k

个高斯分布 生成 高斯混合分布 , 这里的

k

是聚类分组的个数 ;

V . 概率密度函数

概率密度函数 :

① 组件 ( 高斯分布 ) :每个高斯分布 , 都是一个组件 , 代表一个聚类分组中的样本分布 ;

② 组件叠加 ( 高斯混合分布 ) :

k

个组件 ( 高斯分布 ) 线性叠加 , 组成了 高斯混合模型的 概率密度函数 ;

p(x) = \sum_{i = 1}^k \omega_i g ( x | \mu_i , \Sigma_i )
x

表示数据集样本中的 单个样本数据对象 ;

\omega_i

是权重系数 , 表示某个 高斯模型 的重要程度, 重要的分布 ,

\omega_i

值大 , 不重要的分布 ,

\omega_i

权重小 ;

\omega_i

表示该

x

样本由第

i

个 高斯分布 ( 组件 ) 生成的概率 , 也就是 该样本被指派到某个聚类的概率 ;

i

代表了高斯分布的序号 , 聚类分组的序号 , 组件的序号, 其取值范围是

0 \, \leq i \leq \, k

;

k

表示 高斯分布 ( 正态分布 / 组件 ) 的个数 , 也是聚类分组的个数 , 每个聚类分组的样本都是 高斯分布 ( 正态分布 ) 的 ;

g ( x | \mu_i , \Sigma_i )

是高斯模型 的概率密度函数 ;

\mu_i

是 高斯模型 的 均值 ;

\Sigma_i

是高斯模型的 方差 ;

均值和方差唯一决定一个高斯模型 ( 正态分布 ) ;

VI . 高斯分布 曲线 ( 仅做参考 )

高斯分布 : 高斯分布曲线是钟形曲线 , 中间的

\mu

是其 样本分布的 均值 , 该值位置处的样本数最多 ,

\sigma

是其样本的方差 , 这是

1

个标准的高斯分布的模型 ;

高斯混合模型 : 下图是 多个 高斯分布 线性叠加后的 曲线表示图 , 仅做参考 ;

VII . 高斯混合模型 参数简介

1 . 模型 与 参数 : 高斯混合模型 概率密度函数 :

p(x) = \sum_{i = 1}^k \omega_i g ( x | \mu_i , \Sigma_i )

模型结构已知 , 即 高斯混合模型 , 需要根据已知的数据样本 , 学习出模型的参数 ;

2 . 高斯混合模型 参数个数 :

① 聚类个数 ( 高斯模型个数 ) : 每个高斯混合模型 都由

k

个高斯模型 ( 组件 ) 线性叠加组成的 ;

② 高斯模型参数 : 每个高斯模型 都有两个参数 , 即 均值

\mu_i

, 方差

\Sigma_i

;

③ 样本属于聚类分组概率 ( 系数 ) : 每个高斯模型 还有一个系数参数 ,

\omega_i

表示该

x

样本由第

i

个 高斯分布 ( 组件 ) 生成的概率 , 也就是 该样本被指派到某个聚类的概率 ;

④ 每个高斯模型相关参数个数 :

k

个 高斯模型 , 每个高斯模型有 均值

\mu_i

, 方差

\Sigma_i

, 生成概率

\omega_i

3

个参数 ;

⑤ 高斯混合模型参数个数 : 整个 高斯混合模型 有

3 \times k

个参数 ,

k

是聚类分组个数 , 也是高斯模型个数 , 正态分布个数 ;

\Sigma_i

此处方差表示 , 是大写的希腊字母 sigma

\sigma

, 注意与加和符号

\sum

区分 ;

K-Means 方法中 , 有

k

个参数 , 每个聚类分组 , 只有一个参数 , 即中心点样本参数 ;

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020-05-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 文章目录
    • I . 高斯混合模型方法 ( GMM )
    • II . 硬聚类 与 软聚类
    • III . GMM 聚类结果概率的作用
    • IV . 高斯混合分布
    • V . 概率密度函数
    • VI . 高斯分布 曲线 ( 仅做参考 )
    • VII . 高斯混合模型 参数简介
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档