腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
通过
计算
现有
列
的
比率
在
Pyspark
DataFrame
中
创建
新
列
、
、
、
、
我
在
一个
PySpark
DataFrame
中有两
列
,我想在填充空值(而不是就地)后取这两
列
的
比率
。| 200 | 300 | 10 | 20 | +------+------+-----+------+------+------+------+-------+ 我想用M2D和M3C
的
比率
来
创建
新
的
列
在
获取ratio之前,我想用0填充
浏览 17
提问于2019-12-19
得票数 1
回答已采纳
3
回答
使用lambda与熊猫一起
计算
新
列
的
条件是
现有
列
、
、
、
我需要在熊猫
DataFrame
中
创建
一个
新
的
列
,它是按照
DataFrame
中
现有
的两个
列
的
比率
计算
的
。但是,
比率
计算
中
的
分母将根据
在
DataFrame
中
的
另一
列
中找到
的
浏览 4
提问于2020-08-22
得票数 2
回答已采纳
2
回答
如何使用with_column方法
在
极锈病中
创建
计算
列
?
、
我试图
在
Polars锈菌
DataFrame
中
现有
列
的
基础上
创建
一个
新
的
计算
列
。有一个类似于火花放电
的
with_column方法可用于此。但是
在
api文档
中
没有例子。下面是一个示例
dataframe
: let df = df!("{}
浏览 7
提问于2022-06-23
得票数 0
回答已采纳
1
回答
通过
取两个已有
列
的
比率
在数据帧
中
添加
新
列
、
我想
通过
取两个
现有
列
的
比率
在
dataframe
中
创建
一个
新
列
。下面的代码可以工作,但它不保留
列
dfprice_per_sqft。
浏览 0
提问于2018-10-08
得票数 1
1
回答
'
DataFrame
‘对象不支持项分配
、
、
、
、
我将df作为一个
pyspark
.sql.
dataframe
.
DataFrame
导入到Databricks
中
。在这个df
中
,我有3
列
(我已经证实它们是字符串),我希望将它们连接起来。我试过先使用一个简单
的
"+“函数。因此,我试图
在
每一
列
后面添加.astype(str),但没有结果。最后,我尝试简单地添加另一
列
,其中满是数字5:也收到了同样
的</
浏览 1
提问于2022-12-02
得票数 0
1
回答
在
pyspark
的
现有
dataframe
中
添加
新
列
的
方法是什么?
、
、
、
我已经
在
现有
的数据框
中
添加了一个
新
列
,但它没有反映在数据帧
中
。我们就可以看到结果test.show() 有没有办法向
现有
的
dataframe
添加一个
新
的
列
(不复制
dataf
浏览 4
提问于2021-01-26
得票数 0
1
回答
使用
现有
列
在
pyspark
dataframe
中
创建
新
列
、
、
、
我正在尝试使用,我想知道如何使用
现有
列
创建
和填充
新
列
。假设我有一个如下所示
的
dataframe
:| _1| _2| _3||x1-y1| 3| z1|+-----+---+---++-----+---+---+----+
浏览 0
提问于2019-03-15
得票数 0
回答已采纳
1
回答
如何在
PySpark
中
向流数据帧
中
添加
新
列
、
、
、
我有来自卡夫卡主题
的
数据。
在
我
的
dataframe
中
,我有“平均”
列
,我希望
通过
对“平均”
列
执行一些
计算
来
创建
新
列
。目前我写
的
是-但这是个错误-
pyspark
.sql.utils.AnalysisExc
浏览 3
提问于2022-09-20
得票数 0
回答已采纳
1
回答
将多个字段
创建
为
Pyspark
中
的
数组?
、
我有多个
列
的
dataframe
,如下所示:|----|----------|----| B | C | M |我希望
创建
2个
新
列
,并在新字段
中
存储
现有
列
的</
浏览 0
提问于2020-11-20
得票数 0
回答已采纳
2
回答
如何对
pyspark
数据帧进行check/try-catch?
、
我有一个
dataframe
,它根据
现有
列
的
缩减
计算
创建
一个
新
列
。我需要检查,如果使用
的
减小值高于特定
的
阈值数字,则应使其等于阈值数字/不应超过它。我尝试过
在
.withColumn语句内部和之后包装when语句 df = df.withColumn('total_new_load', col('existing_load
浏览 50
提问于2019-05-23
得票数 1
1
回答
希望完成熊猫系列旅行,将每小时
的
(请求)
比率
作为给定数据
的
索引
、
、
、
指向数据集
的
链接:“” 我想要
的
是:用x轴上
的
小时(0-23)和y轴上
的
/Count(请求id)
比率
分别绘制每个“状态”值和“拾取点”
的
图表。我尝试过
的
是:我尝试
创建
一个
新
的
列
行程完成
比率
,其中我将把
计算
出来
的
比率
值与该行
中
的
小时值相对应。我知道如何分别
计算
每小时<
浏览 1
提问于2019-07-31
得票数 1
回答已采纳
1
回答
通过
填充
现有
列
在
Pyspark
中
创建
新
列
、
我正试图
在
现有
的
DataFrame
中
创建
新
列
。目前,
DataFrame
看起来如下:|Acct| M1D|M1C| M2D| M2C| M3D| M3C|| A| 100|200| 200| 200| 300| 10|我希望用M2C填充0<em
浏览 4
提问于2019-12-17
得票数 0
回答已采纳
1
回答
无法使用
列
属性将
新
值赋值到
中
的
列
、
、
、
我有一个电火花数据格式
的
event1。它有许多
列
,其中一个
列
是eventAction,它具有“转换”、“签出”等分类值。我想以一种
在
eventAction
列
中
“转换”变成1,而其他类别变成0
的
方式来转换这个
列
。这就是我试过
的
: event1.eventAction = event1.select(F.when(F.col('eventAction') == 'conversion', 1).ot
浏览 3
提问于2021-03-23
得票数 0
回答已采纳
2
回答
使用来自另一个
dataframe
的
JSON对象
创建
新
的
数据
、
、
、
、
我有一个
dataframe
,它在一个
列
中
存储一个JSON对象。我希望处理JSON对象来
创建
一个
新
的
dataframe
(
列
的
数目和类型不同,每行将从JSON对象生成n个
新
行)。我在下面编写了这样
的
逻辑:
在
迭代原始数据集时,将字典(行)附加到列表
中
。for item in row.json_object['obj']: # cre
浏览 4
提问于2022-10-19
得票数 1
回答已采纳
1
回答
创建
一个
新
列
,详细说明一个
PySpark
数据row
中
的
行是否与另一
列
中
的
一个行匹配。
、
、
、
我想要
创建
一个函数,该函数从
PySpark
中
的
左联接
创建
一个
新
列
,详细说明一个
列
中
的
值是否匹配或不匹配另一个
dataframe
逐行
的
列
。例如,我们有一个
PySpark
dataframe
(d1)具有
列
ID和名称,另一个
PySpark
dataframe
(d2)具有相同<e
浏览 3
提问于2021-12-11
得票数 0
2
回答
PySpark
在
pyspark
.sql.functions.col和
pyspark
.sql.functions.lit
中
的
差异
、
我发现很难理解这两种方法与
pyspark
.sql.functions之间
的
区别,因为
PySpark
官方网站上
的
文档并不能提供很好
的
信息。例如,以下代码:print(F.col('col_name'))研究结果如下:
浏览 10
提问于2017-09-24
得票数 15
1
回答
将一个
列
添加到
现有
的数据格式
中
,并在
Pyspark
中使用随机
的
固定值。
我对
Pyspark
还不熟悉,我正在尝试
在
我
现有
的
dataframe
中
添加一个
新
的
列
。
新
列
应该只包含4个固定值(例如1,2,3,4),我想随机为每一行选择一个值。 我怎么能这么做?
浏览 2
提问于2016-06-29
得票数 1
回答已采纳
1
回答
使用检查点从胞表读取和更新同一个表
、
、
我正在使用spark版本2.3,并试图将spark
中
的
蜂巢表读取为:from
pyspark
.sql.functions import*在这里,我添加了一个
新
列
,其中包含了从system到
现有
的
dataframe
的当前日期 import
pyspark
.sql.functi
浏览 0
提问于2018-12-06
得票数 2
回答已采纳
2
回答
从
PySpark
DataFrame
列
中
删除元素
我知道
PySpark
DataFrames是不可变
的
,所以我想
创建
一个
新
列
,该
列
是根据应用到
PySpark
DataFrame
的
现有
列
的
转换生成
的
。我
的
数据太大了,无法使用collect()。该
列
是唯一int列表(在给定列表
中
不重复int),例如:[1,2][2,3] 上面是一个玩具
浏览 9
提问于2017-01-12
得票数 1
回答已采纳
5
回答
更新spark
中
的
dataframe
列
、
、
、
、
查看
新
的
spark API,还不清楚是否有可能修改
DataFrame
列
。df.ix[x,y] = new_value 编辑:合并下面所说
的
内容,您不能修改
现有
的数据格式,因为它是不可变
的
,但是您可以返回一个
新
的
数据格式,并进行所需
的
修改。如果只想根
浏览 12
提问于2015-03-17
得票数 95
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一个Python大数据处理利器:PySpark入门指南
4种方法,在Word里面的已有表格中插入新的行和列
PySaprk之DataFrame
一文读懂PySpark数据框
一文读懂 PySpark 数据框
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券