我有一个Seq of Spark (即Seq[org.apache.spark.sql.DataFrame]),它可以包含一个或多个元素。有一个列的列表对每个数据文件都是通用的,每个dataframe也有一些额外的列。我想要做的是使用连接条件中的那些公共列将所有这些数据文件连接在一起(记住,数据格式的数量是未知的)
我怎样才能把所有这些数据文件连接起来?我想我可以对它们进行
我试图使用Pyspark在dataframe中更改一个列,也就是跨行对单个列的所有值进行洗牌。我试图避免这样的解决方案,即在将列拆分并分配索引列之前,将其重新连接到原始的dataframe,而原始dataframe也有一个添加的索引列。# for some dataframespark_df
new_df = spark_df
我有一个Spark结构的流媒体应用程序。应用程序从kafka接收数据,并且应该使用这些值作为参数来处理来自cassandra数据库的数据。我的问题是,我如何使用输入数据帧(kafka)中的数据,作为cassandra中的"where“参数"select”,而不会出现以下错误:
Exception in thread "main" org.apache.spark.sql.AnalysisException: Queries with strea