聚类分析的过程
样本准备与特征提取:根据样本特性选取有效特征,并将特征组向量化;
相似度计算:选择合适的距离测度函数,计算相似度
聚类:根据聚类算法进行聚类
聚类结果评估:对聚类质量进行评估并对结果进行解读...假设N个样本组成的数据集分成了K个簇C1,C2,C3,…,CK.C_1,C_2,C_3,\dots,C_K.C1,C2,C3,…,CK.对于每个样本s∈K\in K∈K,s与簇内其他对象之间的平均距离为...初始质心的选择
K-Means算法中初始质心的放置是一个非常重要的环节,虽然时间足够的情况下一定会收敛,但是可能会收敛到局部最小值。...我们可以使用参数n_init来选择,每个随机数种子下运行的次数。...Inertia用来衡量聚合效果的好坏(也可以用其他方法来衡量样本到簇中心的距离指标)
K较小时,随着K的增大,分类更加精细,每个簇的聚合程度比较高,SSE下降较快。