在PySpark中,SparseVector是一种表示稀疏向量的数据结构,它使用一个三元组(索引,值,非零元素的数量)来存储非零元素
from pyspark.ml.linalg import SparseVector
# 创建一个SparseVector实例
sparse_vector = SparseVector(5, [0, 2, 4], [1.0, 2.0, 3.0])
# 获取非零元素的索引
indices = sparse_vector.indices
print("Indices:", indices)
# 获取非零元素的值
values = sparse_vector.values
print("Values:", values)
输出:
Indices: [0, 2, 4]
Values: [1.0, 2.0, 3.0]
在这个例子中,SparseVector表示向量 [1.0, 0.0, 2.0, 0.0, 3.0]
。indices
是一个包含非零元素索引的列表,values
是一个包含非零元素值的列表。
领取专属 10元无门槛券
手把手带您无忧上云