从Scala的迭代列表中创建DataFrame可以通过以下步骤完成:
import org.apache.spark.sql.{SparkSession, Row}
import org.apache.spark.sql.types.{StructType, StructField, StringType, IntegerType}
val spark = SparkSession.builder()
.appName("Creating DataFrame from Iteration List")
.master("local")
.getOrCreate()
val schema = StructType(
Seq(
StructField("name", StringType, nullable = true),
StructField("age", IntegerType, nullable = true)
)
)
val rdd = spark.sparkContext.emptyRDD[Row]
val list = List(("John", 30), ("Lisa", 25), ("Mike", 35))
val rows = list.map(item => Row(item._1, item._2))
val newRdd = rdd.union(spark.sparkContext.parallelize(rows))
val df = spark.createDataFrame(newRdd, schema)
现在,你就可以使用创建的DataFrame执行各种操作和转换了。
这个答案中没有提及特定的云计算品牌商的产品,因此无需提供相关链接地址。
领取专属 10元无门槛券
手把手带您无忧上云