(我是Spark的新手)我需要存储大量的数据行,然后处理这些数据的更新。由于PKs (唯一it )同时存在于数据和更新文件中,因此很容易确定将更新哪个分区。我们打算按照相同的标准对数据和更新进行分片,并定期重写"shard S+ shard S => new shard S累积的所有更新“。(我们知道如何组合shard S+update= new shard S) 如果这就是我们的设计,我们需要(1)通过它的一
我尝试使用硬编码字符串并将其转换为1行星火DataFrame (带有类型为StringType的一列),以便:DataFrame的结果,其.show()方法如下所示cannot be cast to org.apache.spark.sql.types.StructType
at org.apache.spark.sql.SQLContext.createDataFrame(SQLContext.scala:413)