我使用sklearn Kmeans算法将多个观察值分组到4个集群中,并且我包含了init_state和seed来获得相同的结果;但每次我在google colab中重新加载代码,每次运行训练时,我都会在每个集群中的观察值数量方面获得不同的结果,代码如下: import numpy as np from sklearn.cluster import KMeanskmeans = KM
当我使用时,我绘制了b臂方法以找到适当数量的KMean集群。在PySpark工作时,我也想做同样的事情。我知道,由于星火的分布式特性,PySpark的功能有限,但是,有办法得到这个数字吗?我使用下面的代码来绘制肘形图,使用弯头方法从sklearn.cluster导入KMeans中找到最优的集群数for i in range(1, 11):
kmeans =KMeans(