将列(变量)列表连接到一个新的列dataframe pyspark中

、、、

我使用的是pyspark，我有一个包含N列'rec‘，'id’和‘df_001’的数据帧名称。如果我想添加一个新的列'unq_id‘，它将连接'rec’和'id‘。当我这样做的时候，它会完美地工作： df_f_final = df_001.withColumn('unq_id', sf.concat(sf.col('rec')

浏览 25提问于2020-07-07得票数 0

2回答

从PySpark DataFrame列中删除元素

我知道PySpark DataFrames是不可变的，所以我想创建一个新列，该列是根据应用到PySpark DataFrame的现有列的转换生成的。我的数据太大了，无法使用collect()。该列是唯一int列表(在给定列表中不重复int)，例如：[1,2][2,3

浏览 9提问于2017-01-12得票数 1

回答已采纳

1回答

从星星之火数据中的列表中提取值，而不转换为熊猫

、、

我有一个火花数据框架，如下所示:每行包含一个列表，我想从中提取一个元素。我非常绿色的火花，所以我把它转换成一个熊猫DataFrame，然后使用地图功能，我提取所需的元素。问题是，数据是巨大的，因此这种方法是不可扩展的。让我花时间的是toPandas()命令。是否有从每一行访问列表中的值的选项？谢谢!

浏览 5提问于2021-12-09得票数 1

回答已采纳

1回答

从火花数据中选择或删除重复列

、、、

给定一个星星之火数据，有一个重复的列名(例如。( A)对于不能修改上游或源的，如何选择、删除或重命名其中的一个列，以便检索列值？df.select('A')向我显示了一个不明确的列错误，filter、drop和withColumnRenamed也是如此。如何选择其中一列？

浏览 0提问于2018-09-06得票数 2

2回答

如何根据大小更改列值

、、、

我在PySpark设置中有一个dataframe。我想更改一个列，比如它叫做A，它的数据类型是"string“。我想根据它们的长度来改变它的价值。特别是，如果一行中只有一个字符，则希望将0连接到末尾。“修改”列的名称必须仍然是A。这是用于使用PySpark3的木星笔记本。这就是我迄今

浏览 2提问于2019-06-17得票数 1

回答已采纳

1回答

Pyspark:将dataframe作为数组类型列连接到另一个dataframe

、、、、

我尝试在pyspark中连接两个数据帧，但是将一个表作为数组列连接到另一个表中。例如，对于这些表： from pyspark.sql import Row Row(a = 1, b = 'C', c = 26,'ihg'), Row(a = 2, b = 'C', e = 7, f = '

浏览 26提问于2021-11-08得票数 0

回答已采纳

2回答

从列表中添加列的pySpark

、、、、

我有一个数据文件名，并希望根据列表中的值向它添加列。我的值列表将从3-50个值变化。我是pySpark新手，我试图将这些值作为新列(空)附加到我的df中。我看到了关于如何将一列添加到dataframe中的推荐代码，而不是从列表中添加多<e

浏览 2提问于2020-05-12得票数 1

回答已采纳

1回答

'DataFrame‘对象不支持项分配

、、、、

我将df作为一个pyspark.sql.dataframe.DataFrame导入到Databricks中。在这个df中，我有3列(我已经证实它们是字符串)，我希望将它们连接起来。我试过先使用一个简单的"+“函数。因此，我试图在每一列后面添加.astype(str)，但没有结果。最后，我尝试简单地添加另一列，其中满是数字5： df['new_col']

浏览 1提问于2022-12-02得票数 0

2回答

如何将值传递给表中的pyspark变量？

、、

这可能是一个愚蠢的问题，但我有一个表，其中的每一列都包含要传递给变量的值： select sfObject from db.tblwhere Id = {} 我看到的是一个名为sfObject的列，

浏览 1提问于2020-06-10得票数 1

回答已采纳

4回答

如何在Spark中压缩两个数组列

、、、、

我有潘达的数据。我尝试将包含字符串值的两个列连接到一个列表中，然后使用zip将列表中的每个元素都用'_‘连接起来。我的数据集如下：df['column_2']: '1.0, 2.0, 3.0' 我想将这两<em

浏览 2提问于2019-01-21得票数 9

回答已采纳

1回答

在pyspark的现有dataframe中添加新列的方法是什么？

、、、

我已经在现有的数据框中添加了一个新列，但它没有反映在数据帧中。如果我们可以将数据帧分配给另一个数据帧，我们就可以看到结果test.show() 有没有办法向现有的dataframe添加一个新

浏览 4提问于2021-01-26得票数 0

2回答

将列名位于列表中的多列连接在一起。

、、、

我试图将多个列连接到一个列，但只有在列名在列表中的情况下。所以问题= {'a'，'b'，'c'}是我的列表，需要将它作为问题列与；分隔符连接起来。返回无效语法错误的df_issue = df.withColumn('issue', lit(issue))

浏览 9提问于2022-12-02得票数 0

1回答

如何在pyspark中解压list类型的列

、、、

我在pyspark中有一个dataframe，df有一个数组字符串类型的列，所以我需要生成一个包含列表头部的新列，还需要包含尾列表连接的其他列。这是我的原始数据帧： pyspark> df.show()| id| lst_col| +---+--------

浏览 29提问于2020-01-24得票数 0

回答已采纳

1回答

创建一个新列，详细说明一个PySpark数据row中的行是否与另一列中的一个行匹配。

、、、

我想要创建一个函数，该函数从PySpark中的左联接创建一个新列，详细说明一个列中的值是否匹配或不匹配另一个dataframe逐行的列。例如，我们有一个PySpark dataframe (d1)具有列ID和名称，另一个PySpar

浏览 3提问于2021-12-11得票数 0

2回答

使用来自另一个dataframe的JSON对象创建新的数据

、、、、

我有一个dataframe，它在一个列中存储一个JSON对象。我希望处理JSON对象来创建一个新的dataframe (列的数目和类型不同，每行将从JSON对象生成n个新行)。我在下面编写了这样的逻辑:在迭代原始数据集时，将字典(行)附加到列表中。for item in row.json_ob

浏览 4提问于2022-10-19得票数 1

回答已采纳

1回答

如何对pyspark* dataframe列应用函数*

、、

我正在尝试将我的pandas代码转换为pyspark dataframe，并尝试在dataframe的一列上应用函数。我在pandas dataframe中做了一些如下的事情。在操作了几个列值之后，将新列添加到pandas数据帧中，如下所示。return USD_amount salesData['Sales (INR)']

浏览 15提问于2020-01-03得票数 1

回答已采纳

1回答

根据列表的长度与dataframe的行数相同的列表，生成列。

、、、

我有一个现有的，它有170列和841行。我想添加另一列，这是一个‘字符串’的列表。其中一种方法可以是创建一个新的dataframe并将其与主dataframe连接起来。而且它不能连接到原始的dataframe，因为没有可连接的公共列。我能想到的另一个半生不熟的</e

浏览 2提问于2017-07-20得票数 1

回答已采纳

1回答

如何在不将列列表临时存储到变量中的情况下重命名df列？

、、、

我正在提取Snowflake表并将其加载到PySpark DataFrame中，并且我想重命名它的列。现在，正在将加载的数据帧存储到一个变量中，然后访问列列表： spark.read.format("snowflake") .options我的第一个疑问是如何获

浏览 1提问于2021-04-21得票数 0

1回答

过滤DataFrame，其中行位于另一个DataFrame的范围内

、、、、

我希望从一个DataFrame (df1)中检索所有行，以便它的id位于另一个DataFrame (df2)的id列中任何值的+- 10之内。如您所见，如果id中的df1符合df2中任何id的条件，那么行是好的。这两个DataFrames也不一定长度相同。编辑:我的一个新想法

浏览 0提问于2018-12-26得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

从PySpark DataFrame列中删除元素

从星星之火数据中的列表中提取值，而不转换为熊猫

从火花数据中选择或删除重复列

如何根据大小更改列值

Pyspark:将dataframe作为数组类型列连接到另一个dataframe

从列表中添加列的pySpark

'DataFrame‘对象不支持项分配

如何将值传递给表中的pyspark变量？

如何在Spark中压缩两个数组列

在pyspark的现有dataframe中添加新列的方法是什么？

将列名位于列表中的多列连接在一起。

如何在pyspark中解压list类型的列

创建一个新列，详细说明一个PySpark数据row中的行是否与另一列中的一个行匹配。

使用来自另一个dataframe的JSON对象创建新的数据

如何对pyspark* dataframe列应用函数*

根据列表的长度与dataframe的行数相同的列表，生成列。

如何在不将列列表临时存储到变量中的情况下重命名df列？

过滤DataFrame，其中行位于另一个DataFrame的范围内

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐