首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >K-表示在PySpark中的x

K-表示在PySpark中的x
EN

Data Science用户
提问于 2018-07-08 14:11:06
回答 2查看 623关注 0票数 4

我正试图在PySpark中应用k-意思是$颇具价值的集群。

根据本论文的说法,有一个过度抽样的因素,$l$,将影响模型的成本。

我在PySpark的k-均值函数中找不到关于过采样因子的任何参数.有一个名为initializationSteps的参数,但没有适当的定义。

有办法在k均值函数中使用过采样因子吗?

EN

回答 2

Data Science用户

发布于 2018-10-22 10:07:51

基于您设置的k,但希望样本大于k,并应用日志计算。

我建议使用foreach函数。您可以说,foreach()应用的范围比k更远。

文件中的下列aglo可以解释如下。

算法2k-意味着\x(K)初始化。

代码语言:javascript
运行
复制
1: C ← sample a point uniformly at random from X
2: ψ ← φX(C)
3: for O(log ψ) times do
4: C 0 ← sample each point x ∈ X independently with probability px =·d2(x,C) φX(C)
5: C ← C ∪ C0
6: end for
7: For x ∈ C, set wx to be the number of points in X closer to x than any other point inC
8: Recluster the weighted points in C into k clusters

指示:

代码语言:javascript
运行
复制
get points of k = 2
points [(1,1),(1,2),(2,2)]

在这个例子中,质心放在中间,并且

代码语言:javascript
运行
复制
c1 = [(1,1),(1,2)]

这是在满足过采样要求的欧氏foreach()点过采样的情况下实现的。

参见示例这里,该示例用于以下每一个:

代码语言:javascript
运行
复制
# Cluster the data into two classes using PowerIterationClustering
model = PowerIterationClustering.train(similarities, 2, 10)

model.assignments().foreach(lambda x: print(str(x.id) + " -> " + str(x.cluster)))

因此,您需要将距离写入lambda。(如果您提供的代码更容易帮助您)。

K距离=周长上的k距离,这是图中的红线底部。

代码语言:javascript
运行
复制
 .foreach(lambda x: kdistance[get average] + then check prob(k prime) of k)

请分享一些代码和示例数据

票数 2
EN

Data Science用户

发布于 2018-09-11 07:51:54

希望这篇文章能在同样的情况下给你一个先机。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/34160

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档