腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
Pyspark
-
使用
function
-
group
by
和
max
添加
带有
值
的
新
列
、
、
、
我有一个场景,我必须从
group
by
和
max
中获取结果并创建一个
新
列
: 例如,假设我有这样
的
数据: |employee_name|department|state|salary|| Jeff| Marketing| CA| 80000| | Kumar| Marketing| NY| 91000| 我
的
输出应该如下所示: |employee_name|departme
浏览 25
提问于2020-11-03
得票数 0
回答已采纳
1
回答
使用
timeseries
列
创建
PySpark
数据格式
、
、
、
、
我有一个初始
的
PySpark
数据,我希望从date
列
中获取MIN
和
MAX
,然后
使用
来自初始数据
的
MIN
和
MAX
创建一个
新
的
带有
timeseries (每日日期)
的
PySpark
数据。然后,我将
使用
它加入我
的
初始数据并查找丢失
的
天数( inital
列
的
其余部分
浏览 8
提问于2022-05-03
得票数 1
回答已采纳
1
回答
将列有条件地
添加
到数据帧中
、
、
、
、
我在
PySpark
中有一个数据帧。我想有条件地在数据框架中
添加
一
列
。 如果数据帧没有
列
,那么
添加
一个
带有
null
值
的
列
。如果
列
存在,则不执行任何操作,并返回与
新
数据帧相同
的
数据帧。如何在
PySpark
中传递条件语句
浏览 6
提问于2017-01-20
得票数 0
回答已采纳
1
回答
PySpark
:具有多个条件
的
列上
的
聚合函数
、
、
我有两个
PySpark
数据格式A
和
B
GROUP
| date | 1 | 2021-04-01 | 1 | 2021-03-31 | 15 2 | 2021-06-30 | 40 我希望加入它们,使
新
列
last_reported_val为(
MAX
( B.date )
和
B
浏览 0
提问于2021-08-30
得票数 1
回答已采纳
1
回答
用字典连接vs映射,将
新
数据
添加
到Pandas/
PySpark
?
、
、
我有一个大数据与天气
列
,可以采取5个不同
的
数值(晴天,多云,雨,雪
和
其他)。我必须
添加
另一
列
,更多
的
信息,完全取决于天气
值
(例如。如果是晴天,将
值
x
添加
到
新
列
,如果是阴天,则
添加
值y,.)。要么
使用
另一个具有天气
列
(此列上
的
join )
和
一个"new_data“
列
来
添加</e
浏览 2
提问于2021-05-26
得票数 2
回答已采纳
1
回答
如何在火花
和
按数据分组中
添加
最小
和
最大函数
的
新
列
?
、
、
、
、
PySpark
Dataframe: adobeDF向dataframe
添加
新
列
:from
pyspark
.sqlstart_date', f.col('Date')).withColumn('end_date', f.col('Date')) 我试图找出如何在start_date中保存min(Date)
浏览 0
提问于2020-02-03
得票数 0
回答已采纳
2
回答
尝试在
PySpark
DataFrame中创建具有最大时间戳
的
列
、
、
我对
PySpark
真的很陌生。我要做
的
就是找到" date“
列
的
最大
值
,并在dataframe中
添加
一个
新
列
,该
列
对所有行(重复)都有此最大日期,以便:c timestamp3 timestamp3 我
使用
以下代码行: gr
浏览 0
提问于2020-11-06
得票数 4
回答已采纳
1
回答
根据其他
列
中满足
的
条件
添加
列
、
我是
PySpark
的
新手,目前在以下问题上将面临挑战。2.2 1.3 11.3如何将另一
列
添加
为“状态”,其中
的
值
将基于以下逻辑。if 0.20 *
max
(INUT) >
max
(
max
(A),
max
(B)) then Status = 'Imbalance' else 'Bala
浏览 1
提问于2019-05-04
得票数 1
回答已采纳
3
回答
如何在一个列上聚合,并在火花放电中最大限度地利用其他
列
?
、
、
我有
列
X (string)、Y (string)
和
Z (浮点)。我也想 B
浏览 1
提问于2017-05-01
得票数 3
3
回答
withColumn不允许我
使用
max
()函数生成
新
列
、
、
、
我有这样
的
数据集:我希望有一个数据集,它
添加
一个
新
列
,该
列
等于其他三
列
中
的
最大
值
。
max
是否返回bool?根据
的
说法,情况并非如此。好吧。真奇怪。我觉得奇怪
的
是: b = a.withCo
浏览 6
提问于2016-06-15
得票数 6
回答已采纳
2
回答
Pyspark
:不间断地查找时间戳数据块
我正在处理
PySpark
中
的
一个问题。(时间戳之间
的
间隔小于ex )。/06/01 19:11 |到目前为止,进度:,我
使用
了一个窗口函数来查找上一个活动
的
时间,并从该窗口函数中计算了自前一个活动以来所经过
的
时间。但我正在努力创造理想
的
输出。
浏览 2
提问于2021-06-04
得票数 2
回答已采纳
1
回答
在
pyspark
dataframe中检索最大
值
时遇到问题
、
、
、
、
在我通过
使用
窗口
和
对一组
列
进行分区来计算
pyspark
dataframe中每行5行内
的
平均数量之后 from
pyspark
.sql import functions as Fconsecutive_df = prep_df.withColumn('aveg', F.avg(prep_df['quantity']).over(window)) 我尝试
使用
相同
的
组进行分组,并选择平均
浏览 14
提问于2020-06-19
得票数 0
回答已采纳
1
回答
显示组
和
agg之后
的
所有火花放电
列
我希望按一
列
分组,然后找到另一
列
的
最大
值
。最后,显示基于此条件
的
所有
列
。然而,当我
使用
我
的
代码时,它只显示2
列
,而不是所有
列
。# Normal way of creating dataframe in
pyspark
(2,2,'0-2spark.createDataFrame([ (4,6
浏览 0
提问于2020-01-19
得票数 0
回答已采纳
1
回答
在星火Java中计算中值
、
我有一个有几个
列
的
数据集 .agg(functions.min(df.col(“mark”)) Functions.
max
(df.col(“标记”))如何找到标记
列
的
中间
值
?我知道我们可以
使用
percentile_approx在SQL中完成它。
浏览 1
提问于2019-08-21
得票数 0
回答已采纳
4
回答
查找每个组
的
最大
值
并返回另一
列
、
、
,"A","B","C"), 3, 4) 在这里,我想找出每个组
的
最大
值
,然后返回该
列
的
名称。例如,我希望是1,A
和
2,C。如果
和
max
打成平局,第一场比赛就可以了。在那之后,我必须用一个<e
浏览 1
提问于2012-08-20
得票数 7
回答已采纳
1
回答
Pyspark
:当键
和
值
的
类型不同时,如何用dict替换
列
值
、
、
、
我有一个
带有
整数列
的
pySpark
数据。我也有一个从整数到字符串
的
映射,如 2: 'B', 我希望
使用
此映射从原始
列
中获得一个
新
列
。怎么做?我尝试
使用
替换函数,但它将
新
值
转换为与原始
值
相同
的
数据类型。我想我可以先把整数转换成字符串,但是很高兴知道一种更一般
浏览 10
提问于2022-07-06
得票数 0
1
回答
使用
groupby方法(Python)从所有子组获取最大行
、
、
、
、
我有这个数据框架,其中我有3
列
‘区域’,‘州或省’,‘销售’,我已经按地区和州或省分组,并希望在销售中获得价值。但我想从每个地区得到最大
的
州!我怎么能得到?
浏览 8
提问于2022-12-02
得票数 0
2
回答
修改查询,根据特定
列
检查组内是否有多个
值
、
、
我有一个外部系统
的
表格(数据是匿名
的
):我
使用
以下查询按照
列
cola、colb
和
colc
的
组合对结果进行分组;而case语句将工作日
列
中
的
x
值
替换为amount
列
中
的
相应
值
。结果是:现在,我
添加
了一个名为threshold
的
新
列
。您可以看到,按照cola、colb、colc分组时,thr
浏览 16
提问于2019-08-02
得票数 2
回答已采纳
1
回答
在
pyspark
中对大小数求和,并查看整数
、
我有以下数据帧: from
pyspark
.sql import functions as f df = spark.createDataFrame", "numb"]) 我想要有一个
新
的
列
,其中
的
值
的
总和是按
group
column分组
的
。df.withColumn("sum_gr", f.sum(df
浏览 22
提问于2019-05-30
得票数 0
回答已采纳
1
回答
根据相关
的
2行或更多行生成
新
列
值
我有一个usecase,其中我想生成
新
的
列
值
,请考虑如下所示
的
pyspark
数据框架:----------------cartedbill samsung carted我希望
使用
PySpark
处理上面的数据,并在此数据文件
浏览 8
提问于2020-10-23
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python之数据聚合与分组运算
一个Python大数据处理利器:PySpark入门指南
ClickHouse 表引擎介绍
Pandas 2.0 vs Polars:速度的全面对比
前置机器学习(四):轻松掌握Pandas用法(2/2)
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券