腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
用于
在
PySpark
上
多次
更改
一列
的
链
withColumn
、
我使用
的
是UCI
的
成人年收入。| Doctorate| 544|| Prof-school| 785|我想将以下类别放在特定
的
组中community_college = ['Assoc-acdm', 'Assoc-voc', '
浏览 12
提问于2018-08-25
得票数 1
回答已采纳
1
回答
Pyspark
使用一条when语句更新两列?
、
因此,我
在
PySpark
中使用df.
Withcolumn
()来创建列,并使用F.when()来指定何时应该更新该列
的
条件。df = df.
withColumn
('ab', F.when(df['text']=="0", 1).otherwise(0)) 基本
上
,如果符合条件,我会将列更新为“1”。现在,如果相同
的
条件匹配,我想要更新同一df中
的
另
一列
(例如,df['
浏览 3
提问于2016-10-19
得票数 0
1
回答
转换Unix定时
PySpark
13位数
、
、
、
、
我一直试图将UNIX日期(图中第
一列
上
的
13位数字)
更改
为可读
的
日期:display(sd
浏览 7
提问于2022-06-16
得票数 -1
2
回答
如何强制
PySpark
四舍五入使用银行家四舍五入
、
、
我需要使用银行家
的
四舍五入( 0.5四舍五入到最近
的
偶数)
在
PySpark
中舍入
一列
。到目前为止,我尝试过这样
的
方法: df = df.select("*", _round(col(n
浏览 7
提问于2022-07-08
得票数 2
回答已采纳
1
回答
如何对
PySpark
DataFrame
的
每
一列
中
的
数据进行混洗?
、
、
、
、
我是一个用
PySpark
编程
的
初学者。我
在
CSV文件中有以下数据,该文件正在被读取到Spark Dataframe中,并且我想从一个小数据集开始生成一个大型数据集。 .option("header", "true")我想对每
一列
中
的
数据进行混洗下面的代码是随机实现orderBy列值
的</
浏览 16
提问于2020-05-11
得票数 0
1
回答
使用
Pyspark
处理具有不同JSON模式行
的
单个数据集
、
、
、
、
我使用
的
是
PySpark
,我需要处理附加到单个数据帧中
的
日志文件。大多数列看起来都是正常
的
,但其中
一列
在
{}中有JSON字符串。基本
上
,每一行都是一个单独
的
事件,对于JSON字符串,我可以应用单独
的
Schema。但我不知道在这里处理数据
的
最好方法是什么。 示例: ? 这个表稍后将帮助我以所需
的
方式聚合事件。它成功地
在
单个列中工作: from
pyspark
.s
浏览 15
提问于2021-09-01
得票数 0
2
回答
日期时间列中
的
火花源
更改
日
、
、
、
、
此代码试图
更改
日期时间列
的
日期有什么问题?import
pyspark
import
pyspark
.sql.types as sparktypessqlcontext =
pyspark
.SQLContext(sc) rdd = sc.parallelize---
浏览 4
提问于2017-03-03
得票数 2
回答已采纳
1
回答
在
PySpark
3.0.3中使用Expr
的
聚合函数
、
、
、
、
下面的代码可以很好地应
用于
PySpark
3.2.1 "total_amount",)df.
withColumn
( "total_amoun
浏览 9
提问于2022-10-03
得票数 2
回答已采纳
1
回答
如何将列添加到
PySpark
数据column中,该数据column中包含另
一列
的
第9分位数
、
、
、
、
我有一个非常大
的
CSV文件,它已经作为一个
PySpark
数据文件导入:df。dataframe包含许多列,包括列ireturn。我想要计算该列
的
0.99和0.01百分位数,然后将另
一列
添加到dataframe df中,作为new_col_99和new_col_01,它们分别包含0.99和0.01百分位数。我编写了下面的代码,它适
用于
小数据格式,但是当我将它应用到我
的
大型数据文件时会出现错误。我知道这个错误:
在
试图连接到ERROR:py4j.java_gat
浏览 0
提问于2019-01-15
得票数 3
1
回答
在
Spark2.4
上
对
pyspark
.sql.functions.max().over(window)使用.where()会抛出Java异常
、
、
、
我在上关注了一篇关于返回按另
一列
分组
的
列
的
最大值
的
帖子,得到了一个意外
的
Java异常。() | A| B|| a| 5|| a| 7|| b| 3|以下是据称适
用于
其他用户
的
解决方案:w = Window.partitionBy('A') df.
浏览 0
提问于2019-02-04
得票数 6
1
回答
PySpark
中未使用with列条件替换
的
空值
、
、
、
、
我已经编写了一段
PySpark
代码,
用于
设置这样
的
条件:如果给定列中存在空值,则将“Yes”附加到另
一列
,否则将“No”附加到另
一列
。data = data.
withColumn
('Coupon_code',when((data.coupon ==""),"No coupon").otherwise("coupon")) 这里
的
条件是
在
列'coupon‘
上
浏览 22
提问于2020-12-08
得票数 0
回答已采纳
1
回答
pyspark
:将
一列
数组拆分为多列更有效?
、
、
、
我有
一列
数组,可以这样创建 df = spark.CreateDataFrame(["[{\"key\":1}, {\"key\":2}"], "tmp")
withColumn
("tmp", F.from_json(in_col_name, "array<string>")).\the arra
浏览 74
提问于2020-09-23
得票数 0
回答已采纳
3
回答
如何在Spark dataframe中添加带有当前日期
的
额外列
、
、
、
我正在尝试使用
withColumn
方法
在
我现有的
Pyspark
Dataframe中添加
一列
。我想在此column.From中插入当前日期我
的
源中我没有任何日期列,因此我
在
我
的
数据框中添加此当前日期列,并将此数据框保存在我
的
表中,以便以后
用于
跟踪目的。我正在使用下面的代码 df2=df.
withColumn
("Curr_date",datetime.now().strftime('
浏览 78
提问于2020-09-09
得票数 2
回答已采纳
1
回答
对
pyspark
dataframe
的
多个列应用不同
的
函数
、
、
、
我有一个有几列
的
pyspark
dataframe col1 col2 col31. 2.1. 3.2-------------------f3(5.1) 我尽量避免为每
一列
定义一个udf,所以我
的
想法是从每
一列
浏览 49
提问于2020-07-29
得票数 0
回答已采纳
1
回答
对于不带参数
的
函数,
Pyspark
失败,但对于不带参数
的
lambda则有效。
、
、
、
、
我试图使用不带参数
的
DataFrame和udf将
一列
添加到我
的
星火
withColumn
中。这似乎只有当我使用lambda封装我
的
原始函数时才有效。这是一辆MWE:from
pyspark
.sql.functions import udf spark = SparkSession.builder.getOrCreateTypeError: _create_udf() missing 1
浏览 0
提问于2019-04-23
得票数 2
回答已采纳
2
回答
使用
PySpark
将string类型列转换为struct并解压列
、
']|+------+--------+-----------------+ ("200", "[('doe', 'customer')]"), ['rowNum', 'infoCol'] fro
浏览 1
提问于2020-08-19
得票数 1
回答已采纳
4
回答
PySpark
1.5如何将时间戳从秒截断到最近
的
分钟
、
、
、
、
我正在使用
PySpark
。我
在
dataframe ('canon_evt')中有
一列
('dt'),这是一个时间戳。我正在尝试从DateTime值中删除秒数。它最初是以字符串
的
形式从地板
上
读出
的
。然后,我尝试将其转换为时间戳canon_evt= canon_evt.
withColum
浏览 0
提问于2015-12-11
得票数 15
回答已采纳
1
回答
pandas_udf错误RuntimeError:来自pandas_udf
的
结果向量不是所需
的
长度:预期长度为12,实际长度为35
、
、
代码是创建一个基于另
一列
的
数据类型
的
列。相同
的
代码适
用于
正常
的
较慢
的
udf (注释掉)。import
pyspark
.sql.types from
pyspark
.sql.functions import pan
浏览 109
提问于2019-11-28
得票数 3
回答已采纳
1
回答
逐组遍历
上
一行查找
的
数据
、
、
、
、
请帮助我在这方面我是新来
的
火花。null 0 03 0 126 03 4 0 0下面应该是我
的
输出4 0 0 121挑战在于,对于每一组类型列,都必须这样做,公式类似于prev(col2)-col1+col3part = Windo
浏览 2
提问于2017-09-20
得票数 1
回答已采纳
3
回答
PySpark
DataFrame
上
分组数据
的
熊猫式转换
、
、
、
、
如果我们有一个由
一列
类别和
一列
值组成
的
Pandas数据框架,我们可以通过执行以下操作来删除每个类别中
的
平均值:据我所知,不直接提供这个按组/转换操作(我
在
Spark1.5.0
上
使用
PySpark
)。我认为(但尚
浏览 8
提问于2015-12-25
得票数 19
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Input Output推出用于在Cardano上开发自定义侧链的工具包
一文读懂PySpark数据框
一文读懂 PySpark 数据框
Jupyter在美团民宿的应用实践
pyspark 安装
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券