腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
将
UDF
动态
应用于
数据
帧
中
N
列
中
的
1
到
N
列
、
、
我有一个要应用
UDF
的
模式和列名。
列
的
名称是用户输入,对于每个输入,它们
的
数字可能不同。有没有办法
将
UDF
应用于
dataframe
中
的
N
列
? DataFrame newDF = df.withColumn("col2", callUDF(&qu
浏览 9
提问于2017-03-15
得票数 1
4
回答
如何在多列上执行udfs -
动态
、
、
、
、
我有30
列
,比如DPF_
1
、DPF_2、DPF_3......DPF_30,我需要在这些列上应用
数据
帧
。所有30
列
数据
类型都是String。我
的
要求是
将
这30
列
中
的
所有"Na“值转换为"null”。我尝试过在下面的代码,但它不是
动态
的
。def
udf
_A(x:StringType()): if x == "N
浏览 4
提问于2018-01-16
得票数 2
回答已采纳
4
回答
如何
将
向量
的
列
拆分成两
列
?
、
、
Spark ML
的
随机森林输出DataFrame有一个"probability“
列
,这是一个具有两个值
的
向量。我只想在输出DataFrame
中
添加两
列
"prob
1
“和"prob2",它们分别对应于向量
中
的
第一个和第二个值。我尝试过以下几种方法: output2 = output.withColumn('prob
1
', output.map(lambda r: r['
浏览 2
提问于2016-05-19
得票数 7
1
回答
创建一个使用字典
将
列
从字符串更改为整数
的
函数
、
我有一个RDD,它
的
列
包含字符串{'Fair','Good','Better','Best'},我想创建一个函数,使用字典
将
这些字符串更改为{
1
,2,3,4}。这就是我到目前为止所做
的
,但它不起作用,它返回
的
字符串对象没有项目的属性。我使用
的
是RDD,而不是Pandas
数据
帧
。我需要该函数能够使用
UDF
来更改原始
数据
<e
浏览 17
提问于2021-05-28
得票数 0
2
回答
将
Spark
中
的
多个ArrayType
列
合并为一个ArrayType
列
、
、
我想在spark
中
合并多个ArrayTypeStringType
列
来创建一个ArrayTypeStringType。为了组合两
列
,我在这里找到了解决方案: 但是,如果我不知道编译时
的
列
数,我该如何进行组合呢?在运行时,我
将
知道要组合
的
所有
列
的
名称。一种选择是使用上面的stackoverflow问题中定义
的
UDF
,在循环中多次添加两
列
。但这涉及
到
对整个
数据
浏览 0
提问于2018-08-30
得票数 0
2
回答
对训练和测试
数据
集中
的
多
列
应用标签编码器
、
、
、
、
我有一个
数据
集,其中包含多个
列
,这些
列
的
值在字符串format.Now
中
,我需要使用labelEncoder
将
这些文本
列
转换为数值。在下面e
中
,g y是我
的
特定
数据
集
的
目标,而A0
到
A13是不同
的
特征。还有50多个特性,但我在这里提供了一个子集。现在,如何
将
labelencoder
应用于
从A0
到
A8
的<
浏览 5
提问于2020-07-31
得票数 0
1
回答
Spark 'join‘DataFrame with List and return String
、
、
、
n
]| 2 |+------+---------+DF2:|key2||k |+--------------------+---------+|k:0 l:0 m:
1
n
:
1
o:0 |2 | |k:0
浏览 5
提问于2018-02-15
得票数 0
回答已采纳
2
回答
基于索引位置对
列
值执行函数
、
、
、
我有一个包含3
列
的
数据
帧
;['close', 'BUY', 'SELL']。'BUY'和'SELL'
列
是布尔值,指示买入和卖出
的
索引位置-它们分布在许多行
中
-大约3000。我已经能够找到这些布尔值为真的索引(
1
),使用: returns[returns.BUY ==
1
] 我希望能够根据这些布尔位置找到第
n
个索引点,然
浏览 20
提问于2019-05-22
得票数 0
1
回答
将
文本预处理函数
应用于
scala spark
中
的
dataframe
列
、
、
我想创建一个函数来处理我在处理文本
数据
时遇到
的
问题。我熟悉Python和pandas
数据
帧
,我通常认为解决问题
的
过程是使用一个函数,然后使用pandas apply方法将该函数
应用于
列
中
的
所有元素。我需要对三个独立
的
数据
帧
进行大约20次替换,所以用这种方法解决这个问题需要60行代码。有没有一种方法可以在一个函数中进行所有替换,然后将其
应用于
scala
中</
浏览 9
提问于2019-12-26
得票数 0
回答已采纳
2
回答
Apache Spark --
将
UDF
的
结果赋给多个dataframe
列
、
、
、
、
我使用pyspark,使用spark-csv
将
一个大型csv文件加载到dataframe
中
,作为预处理步骤,我需要对其中一
列
(包含json字符串)
中
的
可用
数据
应用各种操作。这将返回X个值,每个值都需要存储在各自单独
的
列
中
。(...) f
浏览 2
提问于2016-02-11
得票数 57
回答已采纳
1
回答
scala
udf
中
的
空比较
、
、
我有一个spark
数据
帧
,其中
列
A、B、C、D都是双精度类型
的
。我需要添加一个新
的
列
'ratio‘,它
的
计算方法如下: then 0 thenA/D then C/B if(A IS NOT NULL &a
浏览 13
提问于2017-02-16
得票数 0
2
回答
在spark 1.5.1
中
对regex
列
使用rlike
、
、
我希望通过将其中一
列
中
的
regex值
应用于
另一
列
来过滤
数据
帧
。Example:
1
Abc A.*3 Ghi G.* 使用RegexColumm过滤
数据
帧
的
结果应该是id为
1
和3
的
行。在spark 1.5.1
中
有没有办法做到这一点?
浏览 2
提问于2020-03-18
得票数 0
2
回答
如何使用
UDF
添加多个
列
?
、
、
问题,这是我到目前为止所得到
的
一个例子。添加一个
列
,如下所示newDF.show(
1
) +-
浏览 3
提问于2017-12-06
得票数 18
回答已采纳
1
回答
将
PySpark命令转换为自定义函数
、
、
、
我想知道是否有可能将一系列PySpark命令打包
到
一个函数
中
,以便这样一个函数接受一个dataframe并将它们应用到dataframe
中
。我们用Python做
的
事。我要做
的
第一件事是过滤掉类型。例如: step
1
step 3 我之所以要这样做,是因为如果我有
N
数据
格式,我无法想象编写这些步骤
的
时间(
浏览 0
提问于2018-08-09
得票数 0
回答已采纳
1
回答
使用Scala从sortedMap替换Spark
列
值
的
有效方法是什么?
、
、
例如,我有一个SortedMap:-----------bbb 2和有3
列
的
数据
集:zzz aaa wsss bbb v 我希望
将
列
col2
的
值从SortedMap
中
更改,因此生成
的</e
浏览 1
提问于2018-04-07
得票数 0
回答已采纳
1
回答
PySpark
数据
帧
Pandas
UDF
返回空
数据
帧
、
、
、
我正在尝试按照groupby('Key').apply(
UDF
)方法
将
pandas_
udf
应用于
我
的
PySpark
数据
帧
以进行一些过滤。为了使用pandas_
udf
,我定义了一个输出schema,并在
列
Number上有一个条件。作为一个例子,这里
的
简化思想是我只希望返回具有奇数Number
的
行
的
ID。这就带来了一个问题,有时在一个组
中
没有奇怪<
浏览 2
提问于2020-05-18
得票数 3
1
回答
跨多对
列
应用confusionMatrix R函数,
将
输出保存在列表或整洁
的
df
中
、
、
、
我希望跨多个
列
应用插入符号
的
confusionMatrix函数,
将
结果保存在
数据
帧
中
。x
1
x2 x3 x4 E W E E等等。对于许多行,每列有4个级别,并有相当多
的</e
浏览 0
提问于2018-09-25
得票数 1
回答已采纳
1
回答
合并
数据
帧
中
的
所有
列
、
、
、
我在Databricks
中
编写Python代码,我使用
的
是spark 2.4.5。 我需要一个带有两个参数
的
UDF
。第一个是
数据
帧
,第二个是SKid,在该
数据
帧
中
,我需要对该
数据
帧
上
的
所有
列
进行散
列
处理。 我已经写了下面的代码,但我需要知道如何连接
动态
数据
帧
中
的</e
浏览 8
提问于2020-10-08
得票数 2
回答已采纳
2
回答
如何
将
数组拆分为块,找出块
的
总和,并将输出作为数组存储在pyspark
中
、
、
、
我有一个
数据
帧
,如下所示:|Index| finalArray |我想将数组分成2
的
块,然后找到每个块
的
和,并将结果数组存储在
列
finalArray
中
。最好
的
情况是,我可以使用withColumn并传递flagArray来处理它,而不必编写
UDF
。@
udf
(ArrayType(Do
浏览 26
提问于2020-03-05
得票数 1
回答已采纳
3
回答
将
函数
应用于
pandas Dataframe
的
单列
、
我正在尝试
将
一个函数
应用于
我
的
数据
帧
的
单个
列
(具体地说,就是规范化)。
数据
帧
如下所示:222 0.012288 0.00518 0.011143 85203000.0116514000.0210 4.999969
浏览 6
提问于2020-03-04
得票数 1
回答已采纳
点击加载更多
相关
资讯
Excel定位求和方法:如何对一列数据中前N个数据汇总
如何将excel表格中同列的重复数据筛选并提取出来?
用神经网络算法,预测乳腺肿瘤性质
年终汇报,带复选框&下拉框的动态图形,就是这么简单
Excel 序列函数太有存在必要了,因为它还能生成二维序列
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券