文章/答案/技术大牛

发布

社区首页 >问答首页 >K-表示在PySpark中的x

问K-表示在PySpark中的x
EN

Data Science用户

提问于 2018-07-08 14:11:06

回答 2查看 623关注 0票数 4

我正试图在PySpark中应用k-意思是$颇具价值的集群。

根据本论文的说法，有一个过度抽样的因素，$l$，将影响模型的成本。

我在PySpark的k-均值函数中找不到关于过采样因子的任何参数.有一个名为initializationSteps的参数，但没有适当的定义。

有办法在k均值函数中使用过采样因子吗？

k-means

pyspark

machine-learning

回答 2

Data Science用户

发布于 2018-10-22 10:07:51

基于您设置的k，但希望样本大于k，并应用日志计算。

我建议使用foreach函数。您可以说，foreach()应用的范围比k更远。

文件中的下列aglo可以解释如下。

算法2k-意味着\x(K)初始化。

1: C ← sample a point uniformly at random from X
2: ψ ← φX(C)
3: for O(log ψ) times do
4: C 0 ← sample each point x ∈ X independently with probability px =·d2(x,C) φX(C)
5: C ← C ∪ C0
6: end for
7: For x ∈ C, set wx to be the number of points in X closer to x than any other point inC
8: Recluster the weighted points in C into k clusters

指示：

get points of k = 2
points [(1,1),(1,2),(2,2)]

在这个例子中，质心放在中间，并且

c1 = [(1,1),(1,2)]

这是在满足过采样要求的欧氏foreach()点过采样的情况下实现的。

参见示例这里，该示例用于以下每一个：

# Cluster the data into two classes using PowerIterationClustering
model = PowerIterationClustering.train(similarities, 2, 10)

model.assignments().foreach(lambda x: print(str(x.id) + " -> " + str(x.cluster)))

因此，您需要将距离写入lambda。(如果您提供的代码更容易帮助您)。

K距离=周长上的k距离，这是图中的红线底部。

 .foreach(lambda x: kdistance[get average] + then check prob(k prime) of k)

请分享一些代码和示例数据

票数 2

Data Science用户

发布于 2018-09-11 07:51:54

希望这篇文章能在同样的情况下给你一个先机。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/34160

复制

相似问题

问K-表示在PySpark中的x
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问K-表示在PySpark中的xEN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问K-表示在PySpark中的x
EN