腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
带有
函数
的
pySpark
withColumn
、
、
、
我有一个dataframe,它有两列: account _ id和电子邮件 _ address,现在我想再添加一列'updated _ 电子邮件 _ 地址‘,我在电子邮件中调用了一些
函数
_ 获取更新
的
地址email, -8, 8) + str(today.strftime('%m')) + str(today.strftime('%d')) + "_updated" df.
withColumn
|djasevneuagsj1 |cde@
浏览 38
提问于2019-12-13
得票数 1
回答已采纳
1
回答
如何计算电火花中
的
模?
、
、
我是星火世界
的
新手,我想要计算一个额外
的
列,里面有整数模块。我没有在内置操作符中找到这个操作符。 有人知道吗?
浏览 5
提问于2020-02-12
得票数 11
2
回答
如何计算
PySpark
中行间
的
差异?
、
、
、
这是我
的
DataFrame in
PySpark
:2015-10-13 11:00:00+00:00 100+00:00 6 A2015-10-13 15:00:00+00:00 11 Butc_timestamp
浏览 11
提问于2020-12-01
得票数 10
回答已采纳
1
回答
高阶
函数
PySpark
阵列列
的
条件变换
、
、
、
我有一个
带有
数组列
的
PySpark
DF,其数据包括: 0,-1,0,0,1,1,1我试过:)sdf = (sdf .
浏览 1
提问于2022-08-24
得票数 1
回答已采纳
1
回答
替换
PySpark
中
的
字符串
、
、
、
我有一个数据格式,
带有
欧洲格式
的
数字,我把它作为字符串导入。逗号为十进制,反之亦然-from
pyspark
.sql.types import FloatType+---------++---------+root需要
的
输出||-12
浏览 2
提问于2018-10-31
得票数 7
回答已采纳
1
回答
如何使用分组数据
的
后续行
的
值来确定当前行
的
值
、
在下面的数据集中,我希望将won_offer列
的
值更改为1或0。问题是,我需要客户代码组合
的
后续行来决定该列
的
值。如果在当前行日期后30天内
的
下一行包含order,且价格低于当前行
的
价格,则该行
的
won_offer列
的
0可以变为1。,但它不起作用,因为我不知道如何将多行传递给我
的
udf: Window.partitionBy('customer','code').orderBy('o
浏览 1
提问于2018-08-28
得票数 3
1
回答
Pyspark
pyspark
.sql.functions行为怪异
、
、
、
当我们有超过3个节点来分发数据时,
pyspark
.sql.functions下
的
"last“
函数
在spark上返回不一致
的
结果。from
pyspark
.sql.types import DoubleType ('blue&
浏览 1
提问于2017-02-02
得票数 1
1
回答
使用;拆分数组,如果存在则在字符串末尾删除,以获取数组
、
、
、
我想使用python/
pyspark
创建一个基于字符串列
的
新列,如果存在,则在末尾使用分隔符(";")和删除(“;”): 输入: "511;520;611;""3;321;"511,520,611]"3;321;" | [3,321] "334;344" | [334,344] 尝试: data = data
浏览 11
提问于2021-09-30
得票数 0
回答已采纳
1
回答
“
函数
”对象是不可订阅
的
,获取错误
、
、
、
、
点击上面的数据集
函数
的
对象不可订阅from
pyspark
.sql.types import *df1 = df.
withColumn
("Year Of Release",abs(col("Year of Release"))) df2= df
浏览 5
提问于2022-08-15
得票数 0
2
回答
Pyspark
中
的
填充
、
我有一个具有以下数据(所有列都有字符串数据类型)
的
Pyspark
(原始数据): 1 103我需要在value列中创建一个新
的
带有
填充
的
修改
的
dataframe,这样该列
的
长度应该是4字符。我如何使用
Pyspark
来实现它?任何帮助都将不胜感激。
浏览 2
提问于2017-07-30
得票数 11
1
回答
如何将字典键应用于将项目值应用于spark中
的
dataset中
的
列?
、
、
、
、
新来
的
新手..。如何使用中
的
列“询问键”获取一些值并将这些值作为新列添加到数据集中?在python中,我们有如下内容:其中D是前面定义
的
python中
的
一个
函数
dataset df:1 Monday6 Saturday8 NULL 这只是一个
浏览 3
提问于2017-09-07
得票数 1
1
回答
使用
PySpark
整数列作为参数
我正试图解析一个
PySpark
列,其中包含一个"=“号。我为此目的创建
的
两个
函数
分别工作:同时,当我创建子字符串列时但是,当我将这两种功能结合起来时: DF=DF.
withColumn
(&quo
浏览 4
提问于2017-08-11
得票数 0
1
回答
是否有一种方法可以在不破坏功能链
的
情况下执行
PySpark
中
的
cast或
PySpark
数据格式操作?
、
、
、
我喜欢使用DataFrames
的
地方是将
函数
调用链接在一起
的
能力。我遇到
的
问题是,我很难找到允许您执行cast或引用DataFrame列
的
withColumn
操作
的
语法。options(header=True) \ .filter("cast(filterColumn as int) in (8, 11, 12)") \ .
withColumn
不幸
的
是,
w
浏览 3
提问于2017-02-08
得票数 3
回答已采纳
1
回答
将Python代码转换为
pyspark
环境
、
、
、
、
在火星雨中,我怎么能拥有与熊猫
的
shift()和累积量()相同
的
功能呢?= x["X"]).cumsum()).reset_index()['X']我
的
问题是如何在火星雨中实现。
浏览 4
提问于2022-09-18
得票数 -1
回答已采纳
1
回答
在
PySpark
中将字符串更改为HH:MM:SS
、
、
、
我希望在
PySpark
中将列更改为hh:mm:ss格式 minutes(string type) 20 90minutes
浏览 3
提问于2020-10-15
得票数 0
回答已采纳
2
回答
使用
withColumn
函数
从
PySpark
中
的
列表动态创建新列
、
我试图通过使用cp_codeset()
函数
并在
withColumn
()
函数
中调用
pySpark
中
的
udf来动态地为列表中
的
每个项创建列(在本例中是
withColumn
列表)。下面是我写
的
代码,但是它给了我一个错误。from
pyspark
.sql.functions import udf, col, litfrom
pyspark
.sql.t
浏览 2
提问于2017-03-27
得票数 2
2
回答
在
PySpark
中,如何根据现有列
的
子字符串添加新列?
、
希望利用DataFrame中包含IP地址字符串
的
" IP“列,根据IP "aaa.bbb.ccc.ddd”
的
第一部分添加一个名为"ipClass“
的
新列:+-----+---------------++-----+---------------+ | 1| 10.xx.xx.xxx| 2| 127.xxx.
浏览 2
提问于2020-06-01
得票数 1
回答已采纳
1
回答
Azure数据库.对Az SQL表
的
写入
、
示例:在本例中,希望将列active和is_agent转换为SQL DataType位,并将其写回新
的
数据框架。我想循环遍历数据帧中
的
所有列,并在源列数据类型为Byte
的
情况下应用上述强制转换。 如何使用Python实现这一点。
浏览 2
提问于2020-04-21
得票数 0
1
回答
火花阵列保序
、
、
、
我希望将这些行输出为强制模式中
的
JSON有序数组,按行号排序,但在模式中没有行号(假定数组中隐含行号)。据我所知,一旦创建好了这个数组,吡咯烷酮和json都将保持数组顺序。请看下面的粗略例子。我可以使用列表理解,但这意味着退出火花,我认为这将是无效
的
。from
pyspark
.sql.functions import collect_list, struct StructField("invoiceNoon='invoiceNo')) invoic
浏览 1
提问于2022-04-19
得票数 0
回答已采纳
2
回答
pyspark
将一列拆分为多个列,不使用pandas
、
、
、
我
的
问题是如何将一列拆分为多列。我不知道为什么df.toPandas()不能工作。 例如,我想将'df_test‘更改为'df_test2’。我看到了很多使用pandas模块
的
例子。还有别的办法吗?
浏览 3
提问于2015-12-19
得票数 6
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
编程字典-详细的PySpark环境设置
0483-如何指定PySpark的Python运行环境
0485-如何在代码中指定PySpark的Python运行环境
带有括号的表达式计算
带有“姓氏”的基因组信息
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券