Spark: DataFrame重命名列和更新行值

文章/答案/技术大牛

发布

0回答

、

我想使用spark data frame重命名一个列，并添加一个条件。例如:我有一列"Code“，我想要将其重命名为"Source Code”，并且我想添加一个条件。当列中的值等于"A“时，应将其重命名为"Agent”，当值为"O“时，应将其重命名为"Other”。

浏览 6提问于2017-01-05得票数 0

1回答

在本地使用spark/scala查询数据时，如何更改列中值的输出？

、、、、

我使用spark/scala本地将json文件转换为dataframe。val results = spark.sq

浏览 5提问于2021-07-19得票数 1

1回答

Spark SQL -更新DataFrame行/列值而不转换为RDD值

、

如何在不转换为RDD的情况下更新Spark SQL DataFrame行/列值为什么我们不能像RDD那样直接更新DataFrame并返回另一个。

浏览 1提问于2016-03-22得票数 0

1回答

(我是Spark的新手)我需要存储大量的数据行，然后处理这些数据的更新。由于PKs (唯一it )同时存在于数据和更新文件中，因此很容易确定将更新哪个分区。我们打算按照相同的标准对数据和更新进行分片，并定期重写"shard S+ shard S => new shard S累积的所有更新“。(我们知道如何组合shard S+update= new shard S) 如果这就是我们的设计，我们需要(1)通过它的一

浏览 19提问于2019-05-03得票数 2

回答已采纳

2回答

如何按索引重命名PySpark数据栏？(处理重复的列名)

、、、

我有一个问题，我需要动态更新星火数据中的列。 df = df.withColumnsRenamed(xcol, xcol + '_' + str(x))但这个名称按名称重命名(此处为xcol)，因此无法解决我的问题我是否可以将其更改为按其索引重命名dataframe中的列</e

浏览 0提问于2018-12-13得票数 5

回答已采纳

1回答

使用具有相同列名(不同数据)的表连接数据集

、、

我希望加入多个具有相同名称的列的多个数据集，同时具有不同的数据。这可以重命名dataset列，同时将其转换为dataframe。但是，在使用数据集时，是否可以使用重命名或将前缀设置为列名。Dataset<Row> uct = spark.read().jdbc(jdbcUrl, "uct", connectionProperties); Dataset<Row> si = spark.readACTIVE'"

浏览 0提问于2018-01-19得票数 0

回答已采纳

3回答

我可以将pandas数据帧转换为spark* rdd吗？*

Pbm： a)读取一个本地文件到Panda dataframe中，比如PD_DF。b)操纵/海量PD_DF并添加列到dataframe中。c)需要使用spark将PD_DF写到HDFS。

浏览 0提问于2015-04-15得票数 4

3回答

如何使用来自另一个dataframe的新值更新？

、

col_2 | ... | col_m |Dataframe可以包含来自dataframe A的重复行、更新行和新行。我想在spark中编写一个操作，其中我可以创建一个新的dataframe，其中包含来自dataframe A的行以及来自dataframe B的更新行和</e

浏览 3提问于2018-05-11得票数 4

回答已采纳

1回答

理解Scala中的一段代码

、

(1))在我看来，它有以下三个步骤：3)我稍微误解了这一行select($"pk"

浏览 3提问于2017-05-10得票数 0

回答已采纳

2回答

Azure数据库触发写入blob存储

、、、

我有一个包含两列的数据帧- filepath ( blob的wasbs文件路径)，string，并希望用该文件名将每个字符串写入一个单独的blob。我该怎么做呢？

浏览 0提问于2018-10-03得票数 2

1回答

在spark* dataframe中使用forloop添加新列*

、

我有一个spark数据帧，它是创建的，dynamically.There也是一个列的列表，需要从数据帧中选择。我需要遍历所需的列的列表，并检查dataframe中是否存在这些列。如果找到，则需要重命名dataframe列，否则，如果找不到，则创建新列并将其放入“null”值。我已经尝试使用forloop和if条件，如下所示：我的数据帧包含以下列: a.col1、a.col2、a.col3、a.c

浏览 26提问于2019-05-19得票数 0

回答已采纳

2回答

从单个字符串创建火花DataFrame

、、

我尝试使用硬编码字符串并将其转换为1行星火DataFrame (带有类型为StringType的一列)，以便：DataFrame的结果，其.show()方法如下所示cannot be cast to org.apache.spark.sql.types.StructType at org.apache.spark.sql.SQLContext.createDataFrame(SQLContext.scala:413)

浏览 3提问于2016-10-10得票数 7

回答已采纳

1回答

PySpark:为给定的DataFrame行数更新列值

、

我有一个包含10行和2列的DataFrame：一个带有随机标识符值的ID列和一个填充了None的VAL列。VAL=None), Row(ID=9,VAL=None),]现在，假设我希望更新3行的VAL<e

浏览 0提问于2018-07-11得票数 0

回答已采纳

1回答

如何对dataframe.expect方法的列进行排序

、、、

我正在尝试在Spark中实现SQL减去行为，这里有2个JSON people1.json和people2.json使用相同的数据{"name":"xyz","age":20}val dfpeople1 = spark.read.json("/tmp/people1.json") val dfpeop

浏览 1提问于2017-03-27得票数 0

1回答

将数据转换为rdd并进行分析

、、、、

我是新的火花和以下数据的csv格式，我想转换为适当的格式。

浏览 0提问于2019-05-07得票数 0

回答已采纳

1回答

N列m行的动态数据帧

、

从json(动态模式)读取数据，并将其加载到dataframe。, (3, "GHIJ")someDF: org.apache.spark.sql.DataFrame-----++------+-----+| 2| DEF|+------+-----+ 要求:<

浏览 6提问于2020-06-04得票数 0

回答已采纳

1回答

迭代的列并更新指定的值

、、、

为了迭代从Hive表创建的Spark列并更新所有所需的列值，我尝试了以下代码。import org.apache.spark.sql.functions._ val a:DataFrame = spark.sql(s"sel

浏览 0提问于2018-05-06得票数 0

回答已采纳

2回答

在pyspark中旋转行的值

数据从csv读取到dataframe中，我需要的值在它们各自的行中，但对于某些行，值是混合的。我需要轮换这些行的值，以便这些值位于正确的列中。| B | C || 2 | 3 | 1 |但是第一行中的值应该是并为每个列重新赋值，并在删除

浏览 18提问于2020-02-07得票数 0

回答已采纳

1回答

如何替换中的特定列多个值？

、、

我试图在Dataframe中替换或更新某些特定的列值，因为我们知道dataframe是不可变的，我试图将其转换为新的dataframe，而不是更新或替换。我尝试了dataframe.replace，正如在Spark中解释的那样，但是它给了我错误作为错误:值替换不是org.apache.spark.sql.DataFrame的成员我尝试在option.For下面传递我要传入的数组的

浏览 0提问于2017-03-22得票数 0

2回答

Spark :向dataframe添加条件列

、、、、

我希望向dataframe添加一个条件列Flag。当满足以下两个条件时，将1添加到Flag，否则为0： +----+------+-----+------------------------+|1001|taco |2.59 |2018-07-21T01:00:07.961Z| +----+------+-----+------

浏览 0提问于2019-04-08得票数 0

回答已采纳

点击加载更多