Apache Spark dataframe列分解为多列

Apache Spark是一个开源的大数据处理框架，它提供了高效的数据处理和分析能力。Spark DataFrame是Spark中的一种数据结构，类似于关系型数据库中的表格，可以进行类似于SQL的查询和操作。

要将Spark DataFrame的列分解为多列，可以使用Spark的内置函数和操作。以下是一种常见的方法：

使用select函数选择要分解的列，并使用split函数将其拆分为多个子列。例如，假设有一个名为dataframe的DataFrame，其中包含一个名为column的列，可以使用以下代码将其拆分为多个子列：

from pyspark.sql.functions import split

new_columns = dataframe.select(split(dataframe.column, " ").alias("new_columns"))

上述代码将column列按空格拆分为多个子列，并将结果存储在名为new_columns的新列中。

使用withColumn函数将拆分后的子列添加到原始DataFrame中。例如，假设要将拆分后的子列添加到原始DataFrame中的两个新列col1和col2中，可以使用以下代码：

new_dataframe = dataframe.withColumn("col1", new_columns.getItem(0)).withColumn("col2", new_columns.getItem(1))

上述代码将拆分后的第一个子列存储在名为col1的新列中，将第二个子列存储在名为col2的新列中。

最后，可以使用drop函数删除原始DataFrame中的原始列。例如，如果要删除原始的column列，可以使用以下代码：

final_dataframe = new_dataframe.drop("column")

上述代码将删除名为column的列，得到最终的DataFrame。

这是一种将Spark DataFrame列分解为多列的常见方法。根据具体的需求和数据结构，可能需要进行适当的调整和修改。对于更复杂的操作，还可以使用Spark提供的其他函数和操作来实现。

推荐的腾讯云相关产品：腾讯云的大数据产品TencentDB for Apache Spark可以提供高性能的Spark集群服务，支持数据分析和处理。您可以通过以下链接了解更多信息：TencentDB for Apache Spark

Apache Spark dataframe列分解为多列

、、、

我目前正在使用Apache Spark 2.1.1将XML文件处理成CSV。我的目标是扁平化XML，但我目前面临的问题是元素的无限出现。Spark自动将这些未绑定的事件推断为数组。现在我要做的是分解一个数组列。但我想生成的输出是将其分解成多列，而不是行。假设数组中有两个结构值。

浏览 1提问于2018-01-17得票数 2

3回答

scala中的MinMax规范化

、、、

我有一个多列的org.apache.spark.sql.DataFrame。我希望使用lat_long_dist规范化或任何技术来缩放1列( MinMax )，将数据扩展到-1和1之间，并将数据类型保留为org.apache.spark.sql.DataFrame。scala> val df = sqlContext.csvFile("tenop.csv") df: org.apache.<

浏览 2提问于2015-11-25得票数 10

回答已采纳

1回答

，我需要获取一个Spark dataframe，它只包含列表中所有列的一行。我正在尝试用返回org.apache.spark.rdd.RDD[Any] = ParallelCollectionRDD[5834] at parallelize at <console>:81的sc.parallelize：sc.parallelize(myList).map(line => line(0))返回error: Any does not take parameters 而且我也不能使用toDF(

浏览 2提问于2018-09-26得票数 1

7回答

如何在spark的数据中“负选择”列

、、、

这个df有"A“、"B”和"C“列。现在假设我有一个Array，它包含这个df列的名称：我想以这样的方式来做一个df.select()，这样我就可以指定哪些列不能选择。例如:假设我不想选择列"B“。我试过了但这不起作用，因为不能将org.apac

浏览 21提问于2015-07-15得票数 22

回答已采纳

1回答

星火sqlContext选择all

、、

我使用火花SQLContext读取数据，并将其存储在一个变量中：然后，我希望使用select选择所有值，如下所示：但这行不通。somevar.registerTempTable("sometable") 但我不想做以前的事。

浏览 2提问于2017-03-03得票数 1

回答已采纳

1回答

使用列比例列表进行Spark选择

、

我正在尝试找到一种使用List[ column，我正在分解一个列，而不是用我的分解列传回所有我感兴趣的列]来进行spark select的好方法。List[Column]试图找到一种好的方法，我知道，如果它是一个字符串，我可以这样做 val result = dataframe.select

浏览 0提问于2016-10-07得票数 9

回答已采纳

1回答

Apache注册一个UDF返回的数据

、、

就像下面的那个res3: org.apache.spark.sql.DataFramepredict_churn", outerpredict _)java.lang.UnsupportedOperationException: Schema for type org.apache.spark.sql.Dat

浏览 3提问于2016-12-20得票数 3

回答已采纳

1回答

Scala - String和Column对象

、、、

这里的变量"exprs“是列类型的(即exprs: Array[org.apache.spark.sql.Column] = Array(sum(country), sum(value), sum(price", 5, 1), .toDF() val exprs = data.columns.map(sum(_)) // here it returns exprs: Array[org.apache.spark.sql.Column

浏览 56提问于2020-03-29得票数 0

1回答

DataFrame到RDD[(字符串，字符串)]的转换

、、、、

我想把数据库中的org.apache.spark.sql.DataFrame 转换成 org.apache.spark.rdd.RDD[(String, String)] ，有人能帮上忙吗？背景(更好的解决方案也是受欢迎的)：我有一个Kafka流，它(经过一些步骤)变成了一个2列数据框架。我想把它放到Redis缓存中，第一列作为键，第二列作为值。更具体地说，输入的类型是：lastContacts: org.apache.spa

浏览 0提问于2019-03-25得票数 0

回答已采纳

1回答

需要将相关矩阵应用于spark数据的sql查询

、、、

我试图在spark/scala中的sql查询中解决这个问题。

浏览 1提问于2017-11-27得票数 0

回答已采纳

2回答

、

我有一个包含许多列的spark.ml DataFrame，每列中的每一行都包含一个SparseVector。除了我似乎不能从该DataFrame中select一列并将其转换为RDD[Vector]。这是我的尝试：val col = df.as[(org.apache.spark.mllib.linalg.Vector)].rdd val

浏览 0提问于2017-02-16得票数 0

2回答

SparkR：“无法解析列名...”向Spark数据框添加新列时

TenderType, TenderedAmount, TransactionStatus, TransactionType, hasLineItems, Ready.minus.In.mins);at org.apache.spark.sql.DataFrame$$anonfun$resolve$1.appl

浏览 2提问于2015-12-29得票数 0

1回答

Spark中的DataFrame.select()和DataFrame.toDF()有什么不同？

、、、

似乎他们都返回了一个新的DataFramedef toDF(self, *cols): return DataFrame(jdf, self.sql_ctx) jdf = self._jcols(*cols)) return DataFrame(jdf, self.sql_ctx)

浏览 1提问于2016-12-16得票数 4

回答已采纳

2回答

如何合并火花(java)中具有不同模式的两个拼花文件

、、

我有两个不同列数的拼板文件，并试图将它们与下面的代码片段合并// dataSetParquet1.union(dataSetParquet2);Caused by: org.apache.spark.sql.AnalysisException: Cannot reso

浏览 2提问于2021-08-26得票数 2

回答已采纳

2回答

将Spark数据帧转换为org.apache.spark.rdd.RDD[org.apache.spark.mllib.linalg.Vector]

、、、、

我对scala和Spark2.1非常陌生。Matrix = Statistics.corr(items, "pearson")<console>:89: error: type mismatch; required: org.apache.spark.rdd.RDD[org.apache.spark.mllib.lina

浏览 6提问于2017-02-20得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Apache Spark dataframe列分解为多列

相关·内容

Apache Spark dataframe列分解为多列

scala中的MinMax规范化

如何从列表中创建spark数据帧

如何在spark的数据中“负选择”列

星火sqlContext选择all

使用列比例列表进行Spark选择

Apache注册一个UDF返回的数据

Scala - String和Column对象

DataFrame到RDD[(字符串，字符串)]的转换

需要将相关矩阵应用于spark数据的sql查询

Spark-scala聚合列表中的多个列

向dataframe星火/scala添加新列时遇到的问题

错误:重载的可选方法值选择：

如何在SQL中使用枢轴(不是作为DataFrame分组操作符)？

将ArrayType列传递给Spark* Scala中的UDF*

包含SparseVector的Spark.ml DataFrame

SparkR：“无法解析列名...”向Spark数据框添加新列时

Spark中的DataFrame.select()和DataFrame.toDF()有什么不同？

如何合并火花(java)中具有不同模式的两个拼花文件

将Spark数据帧转换为org.apache.spark.rdd.RDD[org.apache.spark.mllib.linalg.Vector]

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐