首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如果数据集相同,k-均值聚类会收敛到相同的结果吗?

如果数据集相同,k-均值聚类会收敛到相同的结果吗?
EN

Data Science用户
提问于 2019-11-24 20:39:54
回答 1查看 5.3K关注 0票数 2

对k均值聚类算法进行了研究.似乎唯一不确定的部分是质心初始化。

假设我有10k个数据点和一个给定的k,然后在每次尝试中随机初始化初始的质心:

Try_1:使用seed_1随机初始化k-质心。然后继续更新质心,直到收敛(假设我们可以多次使用10k数据点)。

Try_2:使用seed_2随机初始化k-质心。然后继续更新质心,直到收敛(假设我们可以多次使用10k数据点)。

Try_3:使用seed_3随机初始化k-质心。然后继续更新质心,直到收敛(假设我们可以多次使用10k数据点)。

Try_4:使用seed_4随机初始化k-质心。然后继续更新质心,直到收敛(假设我们可以多次使用10k数据点)。

Try_5:使用seed_5随机初始化k-质心。然后继续更新质心,直到收敛(假设我们可以多次使用10k数据点)。

在这5次尝试中,最终的集群结果会是相同的吗?

EN

回答 1

Data Science用户

发布于 2019-11-24 21:23:23

他们不一定是一样的。考虑均匀分布在圆上的观测值(半径= 1)。根据初始质心,该算法将收敛于不同的解。例如,假设两个质心最初位于圆圈直径的每一边。这些可以是任意一对点,算法将已经与不同的解相收敛。

然而,在某些情况下,该算法必然会收敛到相同的解。例如,在一个2簇问题中,考虑在一个段上平均分布的点。很明显(尽管很难解释),任何初始化最终都会收敛到相同的解决方案(这实际上需要一些额外的假设,例如至少在两个集群的边缘没有意义)。

在您的示例中,由于结构更复杂,问题更难分析。有些问题可能每次都会产生相同的结果,另一些问题则会产生不同的结果。但无论如何,你不能肯定,在一般情况下,它将回到一个单一的解决方案。

票数 5
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/63697

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档