将具有随机值的列添加到pyspark dataframe

、

我有一个包含两个现有列name和birthdate的pyspark dataframe df，我想用随机值覆盖它们的值。对于列name，我希望有一个字符串，其中包含一组固定长度的随机字母(比如10个)。应该对每一行的字符串进行随机化，这样所有行都不会得到相同的字符串。对于列birthdate，我想要一个格式为YYYY-MM-DD

浏览 31提问于2019-04-26得票数 0

回答已采纳

4回答

如何将向量的列拆分成两列？

、、

我使用PySpark。output2 = output.withColumn('pro

浏览 2提问于2016-05-19得票数 7

1回答

将一个列从另一个dataframe添加到现有的dataframe

、、

假设我们有一个具有以下模式的PySpark dataframe df： |-- parent: string (nullable = true)另外，假设有另一个具有以下模式的dataframe df_new： |-- city: string (nullable = true) 将city列从df_new添加到df<e

浏览 2提问于2022-03-31得票数 0

1回答

如何对pyspark dataframe列应用函数

、、

我正在尝试将我的pandas代码转换为pyspark dataframe，并尝试在dataframe的一列上应用函数。我在pandas dataframe中做了一些如下的事情。在操作了几个列值之后，将新列添加到pandas数据帧中，如下所示。return USD_amount salesData['Sales (INR)'] = salesD

浏览 15提问于2020-01-03得票数 1

回答已采纳

2回答

添加带有随机数据的新列

、、、

我想要在dataframe中添加一个包含0或1的值的新列。from random import randint 但我得到了以下错误 / withColumn /python/pyspark/sql/dataframe.py“，第1313行，在withColumn AssertionError( col，列<

浏览 4提问于2017-01-04得票数 13

回答已采纳

2回答

Pyspark -如何从DataFrame列中获取随机值

、、

我在一个DataFrame中有一列，我需要在Pyspark中选择3个随机值。有没有人能帮帮我-我，好吗？+---++---+|245| |234|愿望：**output**: [123, 12, 234]

浏览 0提问于2017-10-04得票数 5

回答已采纳

1回答

如何将所有的日期格式转换为日期列的时间戳？

、、、

我使用的是PySpark版本3.0.1。我正在将csv文件读取为具有2个日期列的PySpark数据帧。但是，当我尝试打印模式时，两列都被填充为字符串类型。 ? ? 上面附加的屏幕截图是Dataframe和Dataframe模式。如何使用pyspark将date列中的行值转换为时间戳格式？我已经尝

浏览 16提问于2020-12-30得票数 2

1回答

如何将电火花列(pyspark.sql.column.Column)转换为火花放电数据？

、、

我有一个用例来映射基于条件的pyspark列的元素。通过这个文档，我找不到一个函数来执行映射函数。因此，尝试使用pyspark映射函数，但无法将pyspark列转换为dataFrame # like column.map(lambd

浏览 4提问于2021-11-19得票数 0

回答已采纳

1回答

创建一个新列，详细说明一个PySpark数据row中的行是否与另一列中的一个行匹配。

、、、

我想要创建一个函数，该函数从PySpark中的左联接创建一个新列，详细说明一个列中的值是否匹配或不匹配另一个dataframe逐行的列。例如，我们有一个PySpark dataframe (d1)具有列ID和名称，另一个PySpark dataframe (d2)具有相同的列

浏览 3提问于2021-12-11得票数 0

2回答

从列表中添加列的pySpark

、、、、

我有一个数据文件名，并希望根据列表中的值向它添加列。我的值列表将从3-50个值变化。我是pySpark新手，我试图将这些值作为新列(空)附加到我的df中。我看到了关于如何将一列添加到dataframe中的推荐代码，而不是从列表中添加多列的代码。, 'Conform

浏览 2提问于2020-05-12得票数 1

回答已采纳

1回答

如何对PySpark* DataFrame的每一列中的数据进行混洗？*

、、、、

我是一个用PySpark编程的初学者。我在CSV文件中有以下数据，该文件正在被读取到Spark Dataframe中，并且我想从一个小数据集开始生成一个大型数据集。df = (spark.read .csv(file

浏览 16提问于2020-05-11得票数 0

1回答

将一个列添加到现有的数据格式中，并在Pyspark中使用随机的固定值。

我对Pyspark还不熟悉，我正在尝试在我现有的dataframe中添加一个新的列。新列应该只包含4个固定值(例如1,2,3,4)，我想随机为每一行选择一个值。我怎么能这么做？

浏览 2提问于2016-06-29得票数 1

回答已采纳

3回答

利用PySpark在数据模型上应用sklearn训练模型

、、、

我用Python训练了一个随机森林算法，并希望用PySpark在一个大数据集上应用它。我首先加载了经过训练的sklearn模型(使用joblib)，将包含这些特性的数据加载到Spark数据框架中，然后添加了一个带有预测的列，该列具有用户定义的函数，如下所示： return rf.predict(features) udfFunction = udf(pr

浏览 6提问于2017-05-31得票数 8

回答已采纳

2回答

如何使用monotonically_increasing_id连接两个没有公共列的pyspark数据帧？

、、、

我有两个相同行数的pyspark dataframe，但它们没有任何公共列。因此，我使用monotonically_increasing_id()将新列添加到这两个列中 from pyspark.sql.functions import monotonically_increasing_idcont_data = cont_data.join(df1,df1.match_id==cont_data.match_id, 'in

浏览 2提问于2017-06-03得票数 1

1回答

PySpark数据重分区

、

当我们根据列对PySpark数据进行重新分区时会发生什么。例如这是否将具有类似'id'的数据移动到相同的分区？spark.sql.shuffle.partitions值如何影响重分区？

浏览 0提问于2018-02-22得票数 11

回答已采纳

1回答

电火花函数理解-转换因子

、、

以下内容验证了dataframe是否具有所需的列要求将2.5的换算系数适用于F栏，即值</e

浏览 6提问于2022-01-14得票数 0

回答已采纳

2回答

如何在pyspark中合并重复的列？

、、

我有一个pyspark dataframe，其中一些列具有相同的名称。我想将具有相同名称的所有列合并到一列中。例如，输入dataframe： ? 我如何在pyspark中做到这一点？

浏览 57提问于2021-06-18得票数 2

回答已采纳

2回答

如何使用来自另一个数据帧的随机值更新PySpark中的数据帧？

、、、

我在PySpark中有两个数据帧，如下所示： Dataframe A:总共1000条记录 +-----++-----+| b|+-----+Dataframe B:共3条记录 +-----++-----+|06901|+-----+ 我需要在Dataframe A中添加一个名为Zip的新列，并使用从Dataframe B中随机选择的

浏览 12提问于2021-02-10得票数 2

回答已采纳

1回答

向类添加功能的最佳方法- PySpark

、、、、

有一段时间，我在寻找如何将多个列一次重命名为一个PySpark DF，并遇到了如下情况：def rename_sdf(df, mapper={}, **kwargs_mapper，其中通过赋值语句将方法添加到pyspark.DataFrame类中。问题是，我正在创建一个Github来存储我的所有函数和ETL，我认为如果我能够应用上面显示的逻辑，就可以非常容易地创建一个__init__.

浏览 6提问于2020-07-09得票数 1

1回答

将向量列添加到吡咯DataFrame中

、、、

如何将Vectors.dense列添加到pyspark中？import pandas as pdfrom pyspark.sql import SQLContext py_df = pd.DataFrame.from_dict({"time": [59., 115., 156., 4

浏览 1提问于2018-04-14得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何将向量的列拆分成两列？

将一个列从另一个dataframe添加到现有的dataframe

如何对pyspark dataframe列应用函数

添加带有随机数据的新列

Pyspark -如何从DataFrame列中获取随机值

如何将所有的日期格式转换为日期列的时间戳？

如何将电火花列(pyspark.sql.column.Column)转换为火花放电数据？

创建一个新列，详细说明一个PySpark数据row中的行是否与另一列中的一个行匹配。

从列表中添加列的pySpark

如何对PySpark* DataFrame的每一列中的数据进行混洗？*

将一个列添加到现有的数据格式中，并在Pyspark中使用随机的固定值。

利用PySpark在数据模型上应用sklearn训练模型

如何使用monotonically_increasing_id连接两个没有公共列的pyspark数据帧？

PySpark数据重分区

电火花函数理解-转换因子

如何在pyspark中合并重复的列？

如何使用来自另一个数据帧的随机值更新PySpark中的数据帧？

向类添加功能的最佳方法- PySpark

将向量列添加到吡咯DataFrame中

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐