腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
不能
使用
withColumn
迭代
pyspark
列
、
、
为什么我在
使用
pyspark
时会得到一个
列
不是可
迭代
的错误?cost_allocation_df = cost_allocation_df.
withColumn
( 'resource_tags_user_engagement',
浏览 19
提问于2019-10-31
得票数 0
2
回答
如何根据大小更改
列
值
、
、
、
我在
PySpark
设置中有一个dataframe。我想更改一个
列
,比如它叫做A,它的数据类型是"string“。我想根据它们的长度来改变它的价值。特别是,如果一行中只有一个字符,则希望将0连接到末尾。“修改”
列
的名称必须仍然是A。这是用于
使用
PySpark
3的木星笔记本。这就是我迄今尝试过的: df = df.
withColumn
("A", when(size(df.col("A")) == 1, concat(df.col("
浏览 2
提问于2019-06-17
得票数 1
回答已采纳
1
回答
如何将子字符串和instr结合
使用
、
、
我试图同时
使用
子字符串和instr函数来提取子字符串,但无法这样做。我试着
使用
pyspark
本机函数和udf,但得到了一个错误,即“
列
不可
迭代
”。你能帮帮我吗from
pyspark
.sql.functions import UserDefinedFunction{"chargedate
浏览 7
提问于2019-12-08
得票数 1
回答已采纳
1
回答
传递
列
以转换为时区值
、
我
使用
to_utc_timestamp将时间戳转换为UTC时间。我在一
列
中有日期时间,在另一
列
中有时区,当我通过时区时,它说
列
不可调用: 怎么修呢?
浏览 0
提问于2018-12-19
得票数 2
回答已采纳
1
回答
当我
迭代
pyspark
dataframe中的
列
数据时,df.
withcolumn
太慢了
我正在对
pyspark
dataframe
列
进行AES加密。我正在
迭代
列
数据,并
使用
df.
withcolumn
将
列
值替换为加密值,但速度太慢 我正在寻找另一种方法,但我没有得到任何方法 ''' obj= AES.new(key, AES.MODE_CBC,v) df=df.
withColumn
(col,F.
浏览 27
提问于2019-08-28
得票数 0
1
回答
如何在
pyspark
中
迭代
dataframe多
列
?
、
、
假设我有一个只有一
列
的数据帧df,其中df.show()是|a,b,c,d,....| |a,b,c,d,....|,所以我想得到一个df1,其中df1.show()是|a|b|c.....,所以简而言之,我想把一个只有一
列
的数据帧分解成一个有多
列
的数据帧。所以,我有了这样的想法df=df.
withColumn
('0',split_co
浏览 1
提问于2020-06-04
得票数 1
2
回答
比较和删除Spark /
PySpark
中不一致数组的数据
列
中的元素
、
、
、
、
我有一个
Pyspark
.sql.dataframe,它有两个数组
列
,其中包含String。两个
列
数组的长度都不一致,有些行也有空项。我需要比较这两
列
,并且必须删除B
列
中的每一行的一个数组元素,当它在
列
覆盖中的数组中找到时。import array_remove, array_intersect 而且还 df= df.
withCo
浏览 5
提问于2020-01-30
得票数 1
回答已采纳
1
回答
无法将循环表达式写在
pyspark
的
列
中。
、
“,{"keyname":"Tariff_Loc","value":"VNSGN","description":”.“}Errro:
列
不可
迭代
root |-- Charg
浏览 2
提问于2022-05-26
得票数 1
2
回答
如何在火花放电中创建空结构?
我正试图在
pyspark
中创建空的struct
列
。对于数组,这可以工作。import
pyspark
.sql.functions as F但这给了我一个错误。df = df.
withColumn
('newCol', F.struct()) 我也看到了类似的问题,但对于scala来说,这并
不能
真正帮助我。
浏览 4
提问于2021-09-21
得票数 2
1
回答
pySpark
中的数据帧级计算
、
我正在
使用
PySpark
,并希望利用多节点的优势来提高性能时间。例如: 假设我有3
列
,有100万条记录: Emp ID | Salary | % Increase | New Salary 2 | 500 | 0.15 | 4 | 700 | 0.1 | 我想要计算新的薪水
列
,并希望
使用
pyspark
中多个节点的能力来减少整体处理时间。我不想做一个
迭代
的逐行计算新工资。 df.
withCo
浏览 16
提问于2021-03-24
得票数 0
1
回答
如何动态地在
pyspark
dataframe中添加
列
、
我试图添加几个基于输入变量vIssueCols的
列
from
pyspark
.sql import functions as Ffrom
pyspark
.sql.window import WindowvQuery1 = 'vSrcData2= vSrcData'我
不能
写一个
浏览 13
提问于2018-01-07
得票数 1
回答已采纳
1
回答
无法
使用
列
属性将新值赋值到中的
列
、
、
、
它有许多
列
,其中一个
列
是eventAction,它具有“转换”、“签出”等分类值。event1.show() 但是,在执行eventAction
列
时
浏览 3
提问于2021-03-23
得票数 0
回答已采纳
2
回答
TypeError:
列
是不可
迭代
的--如何在ArrayType()上
迭代
?
、
、
、
names",方法是向每个元素应用一个函数,而不
使用
udf foo_udf = f.udf(lambda row: [foo(x) for x调用
pysp
浏览 1
提问于2018-02-26
得票数 16
回答已采纳
1
回答
解析包含
Pyspark
中XML字符串的
列
、
、
、
我已经创建了一个UDF,用于获取XML字符串、命名空间字典、x路径语法和XML中键值对的键,并返回一个值数组,以便稍后
使用
withColumn
(col,explode(col))爆炸。现在,我正试图
使用
Pyspark
在Databricks中包含XML字符串的
列
在dataframe上
迭代
此函数,并
使用
返回的数组创建一个新
列
。到目前为止,我已经
使用
作为我最初方法的想法,并在将整个行传递给
withColumn
时阅读了。 我
浏览 6
提问于2020-04-10
得票数 0
2
回答
使用
OR运算符对一个数组中的每个元素在的单个"when“函数中
、
、
、
、
我有一个
列
数组我想要处理一个
Pyspark
,在其中我创建了一个名为"Is_Diversified“的新
列
,并在上面提到的每个DiversityTypes元素的值上设置了它的值Yes,
使用
或operater的No,在一个when函数中设置如下: p_df = p_df.
withColumn
('Is_Diversif
浏览 2
提问于2020-08-28
得票数 1
回答已采纳
3
回答
withColumn
不允许我
使用
max()函数生成新
列
、
、
、
该
列
等于其他三
列
中的最大值。2| 3| 3|| 9| 8| 7| 9|我想我应该
使用
withColumn
,就像这样:但这会产生错误 Traceback
浏览 6
提问于2016-06-15
得票数 6
回答已采纳
1
回答
在
PySpark
DataFrames中,为什么__setitem__没有完全实现?
、
、
、
在
PySpark
中,我们
不能
使用
传统的熊猫或R风格的符号来根据DataFrame中的旧
列
来制作新的
列
。例如,假设我试图连接两
列
:df['newcol'] = F.concat(df['col_1'], df['col_2']) 结果:TypeError: 'DataFrame' object does not suppor
浏览 1
提问于2016-07-28
得票数 1
回答已采纳
2
回答
电火花
迭代
列
加内存泄漏
、
、
、
我一直在尝试对
pyspark
数据执行一些
迭代
计算。
列
是根据前面的
列
添加到df中的。然而,我注意到,
使用
的内存不断增加。下面是一个简单的例子。from
pyspark
import SparkContext, SparkConffrom
pyspark
import Rowdf = [Row(Z_0=0.0, Z_1=0.0)] df = sc.parallelize(df).toD
浏览 3
提问于2019-10-21
得票数 0
回答已采纳
1
回答
高阶函数
PySpark
阵列
列
的条件变换
、
、
、
我有一个带有数组
列
的
PySpark
DF,其数据包括: 0,-1,0,0,1,1,1我试过:) 但是,返回错误“
不能
将
列
转换为bool:在构建Dat
浏览 1
提问于2022-08-24
得票数 1
回答已采纳
1
回答
PySpark
基于
列
的vlaue添加月份到日期字段
、
、
、
、
我有一个带有日期
列
和整数列的dataframe,我想根据整数列将月份添加到date
列
中。我尝试了以下方法,但是我得到了一个错误:
withColumn
('future', f.add_months('cohort', col('period'))) TypeError:
浏览 2
提问于2022-02-08
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一个Python大数据处理利器:PySpark入门指南
一文读懂PySpark数据框
一文读懂 PySpark 数据框
Python开源数据分析工具TOP 3!
人生苦短,我用python之入门篇-3
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券