是通过SparkContext对象的parallelize()方法来实现的。RDD(弹性分布式数据集)是Spark中最基本的数据结构,代表了分布式内存中的不可变的、可分区的集合。
创建RDD的步骤如下:
from pyspark import SparkContext
sc = SparkContext()
data = [1, 2, 3, 4, 5]
rdd = sc.parallelize(data)
创建RDD的优势:
创建RDD的应用场景:
腾讯云相关产品和产品介绍链接地址:
领取专属 10元无门槛券
手把手带您无忧上云