Pyspark -使用function - group by和max添加带有值的新列 - 腾讯云开发者社区

、、、

我有一个场景，我必须从group by和max中获取结果并创建一个新列：例如，假设我有这样的数据： |employee_name|department|state|salary|| Jeff| Marketing| CA| 80000| | Kumar| Marketing| NY| 91000| 我的输出应该如下所示： |employee_name|departme

浏览 25提问于2020-11-03得票数 0

回答已采纳

1回答

使用timeseries列创建PySpark数据格式

、、、、

我有一个初始的PySpark数据，我希望从date列中获取MIN和MAX，然后使用来自初始数据的MIN和MAX创建一个新的带有timeseries (每日日期)的PySpark数据。然后，我将使用它加入我的初始数据并查找丢失的天数( inital列的其余部分

浏览 8提问于2022-05-03得票数 1

回答已采纳

1回答

将列有条件地添加到数据帧中

、、、、

我在PySpark中有一个数据帧。我想有条件地在数据框架中添加一列。如果数据帧没有列，那么添加一个带有null值的列。如果列存在，则不执行任何操作，并返回与新数据帧相同的数据帧。如何在PySpark中传递条件语句

浏览 6提问于2017-01-20得票数 0

回答已采纳

1回答

PySpark:具有多个条件的列上的聚合函数

、、

我有两个PySpark数据格式A和BGROUP | date | 1 | 2021-04-01 | 1 | 2021-03-31 | 15 2 | 2021-06-30 | 40 我希望加入它们，使新列last_reported_val为(MAX( B.date )和B

浏览 0提问于2021-08-30得票数 1

回答已采纳

1回答

用字典连接vs映射，将新数据添加到Pandas/PySpark？

、、

我有一个大数据与天气列，可以采取5个不同的数值(晴天，多云，雨，雪和其他)。我必须添加另一列，更多的信息，完全取决于天气值(例如。如果是晴天，将值x添加到新列，如果是阴天，则添加值y，.)。要么使用另一个具有天气列(此列上的join )和一个"new_data“列来添加</e

浏览 2提问于2021-05-26得票数 2

回答已采纳

1回答

如何在火花和按数据分组中添加最小和最大函数的新列？

、、、、

PySpark Dataframe: adobeDF向dataframe添加新列：from pyspark.sqlstart_date', f.col('Date')).withColumn('end_date', f.col('Date')) 我试图找出如何在start_date中保存min(Date)

浏览 0提问于2020-02-03得票数 0

回答已采纳

2回答

尝试在PySpark* DataFrame中创建具有最大时间戳的列*

、、

我对PySpark真的很陌生。我要做的就是找到" date“列的最大值，并在dataframe中添加一个新列，该列对所有行(重复)都有此最大日期，以便：c timestamp3 timestamp3 我使用以下代码行: gr

浏览 0提问于2020-11-06得票数 4

回答已采纳

1回答

根据其他列中满足的条件添加列

、

我是PySpark的新手，目前在以下问题上将面临挑战。2.2 1.3 11.3如何将另一列添加为“状态”，其中的值将基于以下逻辑。if 0.20 * max(INUT) > max(max(A),max(B)) then Status = 'Imbalance' else 'Bala

浏览 1提问于2019-05-04得票数 1

回答已采纳

3回答

如何在一个列上聚合，并在火花放电中最大限度地利用其他列？

、、

我有列X (string)、Y (string)和Z (浮点)。我也想 B

浏览 1提问于2017-05-01得票数 3

3回答

withColumn不允许我使用max()函数生成新列

、、、

我有这样的数据集：我希望有一个数据集，它添加一个新列，该列等于其他三列中的最大值。max是否返回bool？根据的说法，情况并非如此。好吧。真奇怪。我觉得奇怪的是： b = a.withCo

浏览 6提问于2016-06-15得票数 6

回答已采纳

2回答

Pyspark:不间断地查找时间戳数据块

我正在处理PySpark中的一个问题。(时间戳之间的间隔小于ex )。/06/01 19:11 |到目前为止，进度：，我使用了一个窗口函数来查找上一个活动的时间，并从该窗口函数中计算了自前一个活动以来所经过的时间。但我正在努力创造理想的输出。

浏览 2提问于2021-06-04得票数 2

回答已采纳

1回答

在pyspark* dataframe中检索最大值时遇到问题*

、、、、

在我通过使用窗口和对一组列进行分区来计算pyspark dataframe中每行5行内的平均数量之后 from pyspark.sql import functions as Fconsecutive_df = prep_df.withColumn('aveg', F.avg(prep_df['quantity']).over(window)) 我尝试使用相同的组进行分组，并选择平均

浏览 14提问于2020-06-19得票数 0

回答已采纳

1回答

显示组和agg之后的所有火花放电列

我希望按一列分组，然后找到另一列的最大值。最后，显示基于此条件的所有列。然而，当我使用我的代码时，它只显示2列，而不是所有列。# Normal way of creating dataframe in pyspark (2,2,'0-2spark.createDataFrame([ (4,6

浏览 0提问于2020-01-19得票数 0

回答已采纳

1回答

在星火Java中计算中值

、

我有一个有几个列的数据集 .agg(functions.min(df.col(“mark”)) Functions.max(df.col(“标记”))如何找到标记列的中间值？我知道我们可以使用percentile_approx在SQL中完成它。

浏览 1提问于2019-08-21得票数 0

回答已采纳

4回答

查找每个组的最大值并返回另一列

、、

,"A","B","C"), 3, 4) 在这里，我想找出每个组的最大值，然后返回该列的名称。例如，我希望是1，A和2，C。如果和max打成平局，第一场比赛就可以了。在那之后，我必须用一个<e

浏览 1提问于2012-08-20得票数 7

回答已采纳

1回答

Pyspark:当键和值的类型不同时，如何用dict替换列值

、、、

我有一个带有整数列的pySpark数据。我也有一个从整数到字符串的映射，如 2: 'B', 我希望使用此映射从原始列中获得一个新列。怎么做？我尝试使用替换函数，但它将新值转换为与原始值相同的数据类型。我想我可以先把整数转换成字符串，但是很高兴知道一种更一般

浏览 10提问于2022-07-06得票数 0

1回答

使用groupby方法(Python)从所有子组获取最大行

、、、、

我有这个数据框架，其中我有3列‘区域’，‘州或省’，‘销售’，我已经按地区和州或省分组，并希望在销售中获得价值。但我想从每个地区得到最大的州！我怎么能得到？

浏览 8提问于2022-12-02得票数 0

2回答

修改查询，根据特定列检查组内是否有多个值

、、

我有一个外部系统的表格(数据是匿名的)：我使用以下查询按照列cola、colb和colc的组合对结果进行分组；而case语句将工作日列中的x值替换为amount列中的相应值。结果是：现在，我添加了一个名为threshold的新列。您可以看到，按照cola、colb、colc分组时，thr

浏览 16提问于2019-08-02得票数 2

回答已采纳

1回答

在pyspark中对大小数求和，并查看整数

、

我有以下数据帧： from pyspark.sql import functions as f df = spark.createDataFrame", "numb"]) 我想要有一个新的列，其中的值的总和是按group column分组的。df.withColumn("sum_gr", f.sum(df

浏览 22提问于2019-05-30得票数 0

回答已采纳

1回答

根据相关的2行或更多行生成新列值

我有一个usecase，其中我想生成新的列值，请考虑如下所示的pyspark数据框架：----------------cartedbill samsung carted我希望使用PySpark处理上面的数据，并在此数据文件

浏览 8提问于2020-10-23得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云