这一篇我们来介绍聚类的又一种方法——层次聚类。
层次聚类简介
层次聚类,顾名思义,它的构成方式是一层一层进行的。具体来说,主要有两种方式。
一种是从上到下,不断将大的类别分割成小的类别,我们称之为分裂法。
另一种是从下到上,不断将小的类别合并成大的类别,我们称之为凝聚法。
这一篇我们主要介绍凝聚法。
AgglomerativeClustering算法
该算法是一种凝聚法,它的步骤如下:
· 步骤1
将所有样本点看做一个簇,簇的个数就是所有样本点的个数。
· 步骤2
计算各个簇之间的距离,然后将距离最近的两个簇合并。
· 步骤3
重复步骤2,直到达到我们所需的簇的个数。
关键点
观察上面的步骤,最关键的就是如何判断各个簇之间的距离。关于距离的度量,我们有三种方式。
1.最小距离
两个簇最近的样本之间的距离
2.最大距离
两个簇最远的样本之间的距离
3.平均距离
两个簇中心之间的距离
优缺点
采用不同的距离度量,会产生不同的效果。
1.采用最小距离或最大距离
这种方式的优点是计算量小,但缺点是容易受到噪声的影响。
2.采用平均距离
这种方式的优点是抗噪声的能力强,但缺点就是计算量大。
在实际应用中,我们要根据实际情况来选择采取哪一种距离度量的方式。
领取专属 10元无门槛券
私享最新 技术干货