我正试图在PySpark中应用k-意思是$颇具价值的集群。
根据本论文的说法,有一个过度抽样的因素,$l$,将影响模型的成本。
我在PySpark的k-均值函数中找不到关于过采样因子的任何参数.有一个名为initializationSteps的参数,但没有适当的定义。
有办法在k均值函数中使用过采样因子吗?
发布于 2018-10-22 10:07:51
基于您设置的k,但希望样本大于k,并应用日志计算。
我建议使用foreach函数。您可以说,foreach()应用的范围比k更远。
文件中的下列aglo可以解释如下。
算法2k-意味着\x(K)初始化。
1: C ← sample a point uniformly at random from X
2: ψ ← φX(C)
3: for O(log ψ) times do
4: C 0 ← sample each point x ∈ X independently with probability px =·d2(x,C) φX(C)
5: C ← C ∪ C0
6: end for
7: For x ∈ C, set wx to be the number of points in X closer to x than any other point inC
8: Recluster the weighted points in C into k clusters指示:
get points of k = 2
points [(1,1),(1,2),(2,2)]在这个例子中,质心放在中间,并且
c1 = [(1,1),(1,2)]这是在满足过采样要求的欧氏foreach()点过采样的情况下实现的。
参见示例这里,该示例用于以下每一个:
# Cluster the data into two classes using PowerIterationClustering
model = PowerIterationClustering.train(similarities, 2, 10)
model.assignments().foreach(lambda x: print(str(x.id) + " -> " + str(x.cluster)))因此,您需要将距离写入lambda。(如果您提供的代码更容易帮助您)。
K距离=周长上的k距离,这是图中的红线底部。

.foreach(lambda x: kdistance[get average] + then check prob(k prime) of k)请分享一些代码和示例数据
发布于 2018-09-11 07:51:54
希望这篇文章能在同样的情况下给你一个先机。
https://datascience.stackexchange.com/questions/34160
复制相似问题