对k均值聚类算法进行了研究.似乎唯一不确定的部分是质心初始化。
假设我有10k个数据点和一个给定的k,然后在每次尝试中随机初始化初始的质心:
Try_1:使用seed_1随机初始化k-质心。然后继续更新质心,直到收敛(假设我们可以多次使用10k数据点)。
Try_2:使用seed_2随机初始化k-质心。然后继续更新质心,直到收敛(假设我们可以多次使用10k数据点)。
Try_3:使用seed_3随机初始化k-质心。然后继续更新质心,直到收敛(假设我们可以多次使用10k数据点)。
Try_4:使用seed_4随机初始化k-质心。然后继续更新质心,直到收敛(假设我们可以多次使用10k数据点)。
Try_5:使用seed_5随机初始化k-质心。然后继续更新质心,直到收敛(假设我们可以多次使用10k数据点)。
在这5次尝试中,最终的集群结果会是相同的吗?
发布于 2019-11-24 21:23:23
他们不一定是一样的。考虑均匀分布在圆上的观测值(半径= 1)。根据初始质心,该算法将收敛于不同的解。例如,假设两个质心最初位于圆圈直径的每一边。这些可以是任意一对点,算法将已经与不同的解相收敛。
然而,在某些情况下,该算法必然会收敛到相同的解。例如,在一个2簇问题中,考虑在一个段上平均分布的点。很明显(尽管很难解释),任何初始化最终都会收敛到相同的解决方案(这实际上需要一些额外的假设,例如至少在两个集群的边缘没有意义)。
在您的示例中,由于结构更复杂,问题更难分析。有些问题可能每次都会产生相同的结果,另一些问题则会产生不同的结果。但无论如何,你不能肯定,在一般情况下,它将回到一个单一的解决方案。
https://datascience.stackexchange.com/questions/63697
复制相似问题