将UDF动态应用于数据帧中N列中的1到N列

文章/答案/技术大牛

发布

1回答

、、

我有一个要应用UDF的模式和列名。列的名称是用户输入，对于每个输入，它们的数字可能不同。有没有办法将UDF应用于dataframe中的N列？ DataFrame newDF = df.withColumn("col2", callUDF(&qu

浏览 9提问于2017-03-15得票数 1

4回答

如何在多列上执行udfs -动态

、、、、

我有30列，比如DPF_1、DPF_2、DPF_3......DPF_30，我需要在这些列上应用数据帧。所有30列数据类型都是String。我的要求是将这30列中的所有"Na“值转换为"null”。我尝试过在下面的代码，但它不是动态的。def udf_A(x:StringType()): if x == "N

浏览 4提问于2018-01-16得票数 2

回答已采纳

4回答

如何将向量的列拆分成两列？

、、

Spark ML的随机森林输出DataFrame有一个"probability“列，这是一个具有两个值的向量。我只想在输出DataFrame中添加两列"prob1“和"prob2"，它们分别对应于向量中的第一个和第二个值。我尝试过以下几种方法： output2 = output.withColumn('prob1', output.map(lambda r: r['

浏览 2提问于2016-05-19得票数 7

1回答

创建一个使用字典将列从字符串更改为整数的函数

、

我有一个RDD，它的列包含字符串{'Fair'，'Good'，'Better'，'Best'}，我想创建一个函数，使用字典将这些字符串更改为{1，2，3，4}。这就是我到目前为止所做的，但它不起作用，它返回的字符串对象没有项目的属性。我使用的是RDD，而不是Pandas数据帧。我需要该函数能够使用UDF来更改原始数据<e

浏览 17提问于2021-05-28得票数 0

2回答

将Spark中的多个ArrayType列合并为一个ArrayType列

、、

我想在spark中合并多个ArrayTypeStringType列来创建一个ArrayTypeStringType。为了组合两列，我在这里找到了解决方案：但是，如果我不知道编译时的列数，我该如何进行组合呢？在运行时，我将知道要组合的所有列的名称。一种选择是使用上面的stackoverflow问题中定义的UDF，在循环中多次添加两列。但这涉及到对整个数据

浏览 0提问于2018-08-30得票数 0

2回答

对训练和测试数据集中的多列应用标签编码器

、、、、

我有一个数据集，其中包含多个列，这些列的值在字符串format.Now中，我需要使用labelEncoder将这些文本列转换为数值。在下面e中，g y是我的特定数据集的目标，而A0到A13是不同的特征。还有50多个特性，但我在这里提供了一个子集。现在，如何将labelencoder应用于从A0到A8的<

浏览 5提问于2020-07-31得票数 0

1回答

Spark 'join‘DataFrame with List and return String

、、、

n]| 2 |+------+---------+DF2:|key2||k |+--------------------+---------+|k:0 l:0 m:1 n:1 o:0 |2 | |k:0

浏览 5提问于2018-02-15得票数 0

回答已采纳

2回答

基于索引位置对列值执行函数

、、、

我有一个包含3列的数据帧；['close', 'BUY', 'SELL']。'BUY'和'SELL'列是布尔值，指示买入和卖出的索引位置-它们分布在许多行中-大约3000。我已经能够找到这些布尔值为真的索引(1)，使用： returns[returns.BUY == 1] 我希望能够根据这些布尔位置找到第n个索引点，然

浏览 20提问于2019-05-22得票数 0

1回答

将文本预处理函数应用于scala spark中的dataframe列

、、

我想创建一个函数来处理我在处理文本数据时遇到的问题。我熟悉Python和pandas数据帧，我通常认为解决问题的过程是使用一个函数，然后使用pandas apply方法将该函数应用于列中的所有元素。我需要对三个独立的数据帧进行大约20次替换，所以用这种方法解决这个问题需要60行代码。有没有一种方法可以在一个函数中进行所有替换，然后将其应用于scala中</

浏览 9提问于2019-12-26得票数 0

回答已采纳

2回答

Apache Spark --将UDF的结果赋给多个dataframe列

、、、、

我使用pyspark，使用spark-csv将一个大型csv文件加载到dataframe中，作为预处理步骤，我需要对其中一列(包含json字符串)中的可用数据应用各种操作。这将返回X个值，每个值都需要存储在各自单独的列中。(...) f

浏览 2提问于2016-02-11得票数 57

回答已采纳

1回答

scala udf中的空比较

、、

我有一个spark数据帧，其中列A、B、C、D都是双精度类型的。我需要添加一个新的列'ratio‘，它的计算方法如下： then 0 thenA/D then C/B if(A IS NOT NULL &a

浏览 13提问于2017-02-16得票数 0

2回答

在spark 1.5.1中对regex列使用rlike

、、

我希望通过将其中一列中的regex值应用于另一列来过滤数据帧。Example:1 Abc A.*3 Ghi G.* 使用RegexColumm过滤数据帧的结果应该是id为1和3的行。在spark 1.5.1中有没有办法做到这一点？

浏览 2提问于2020-03-18得票数 0

2回答

如何使用UDF添加多个列？

、、

问题，这是我到目前为止所得到的一个例子。添加一个列，如下所示newDF.show(1) +-

浏览 3提问于2017-12-06得票数 18

回答已采纳

1回答

将PySpark命令转换为自定义函数

、、、

我想知道是否有可能将一系列PySpark命令打包到一个函数中，以便这样一个函数接受一个dataframe并将它们应用到dataframe中。我们用Python做的事。我要做的第一件事是过滤掉类型。例如： step 1 step 3 我之所以要这样做，是因为如果我有N数据格式，我无法想象编写这些步骤的时间(

浏览 0提问于2018-08-09得票数 0

回答已采纳

1回答

使用Scala从sortedMap替换Spark列值的有效方法是什么？

、、

例如，我有一个SortedMap：-----------bbb 2和有3列的数据集：zzz aaa wsss bbb v 我希望将列col2的值从SortedMap中更改，因此生成的</e

浏览 1提问于2018-04-07得票数 0

回答已采纳

1回答

PySpark数据帧Pandas UDF返回空数据帧

、、、

我正在尝试按照groupby('Key').apply(UDF)方法将pandas_udf应用于我的PySpark数据帧以进行一些过滤。为了使用pandas_udf，我定义了一个输出schema，并在列Number上有一个条件。作为一个例子，这里的简化思想是我只希望返回具有奇数Number的行的ID。这就带来了一个问题，有时在一个组中没有奇怪<

浏览 2提问于2020-05-18得票数 3

1回答

跨多对列应用confusionMatrix R函数，将输出保存在列表或整洁的df中

、、、

我希望跨多个列应用插入符号的confusionMatrix函数，将结果保存在数据帧中。x1 x2 x3 x4 E W E E等等。对于许多行，每列有4个级别，并有相当多的</e

浏览 0提问于2018-09-25得票数 1

回答已采纳

1回答

合并数据帧中的所有列

、、、

我在Databricks中编写Python代码，我使用的是spark 2.4.5。我需要一个带有两个参数的UDF。第一个是数据帧，第二个是SKid，在该数据帧中，我需要对该数据帧上的所有列进行散列处理。我已经写了下面的代码，但我需要知道如何连接动态数据帧中的</e

浏览 8提问于2020-10-08得票数 2

回答已采纳

2回答

如何将数组拆分为块，找出块的总和，并将输出作为数组存储在pyspark中

、、、

我有一个数据帧，如下所示：|Index| finalArray |我想将数组分成2的块，然后找到每个块的和，并将结果数组存储在列finalArray中。最好的情况是，我可以使用withColumn并传递flagArray来处理它，而不必编写UDF。@udf(ArrayType(Do

浏览 26提问于2020-03-05得票数 1

回答已采纳

3回答

将函数应用于pandas Dataframe的单列

、

我正在尝试将一个函数应用于我的数据帧的单个列(具体地说，就是规范化)。数据帧如下所示：222 0.012288 0.00518 0.011143 85203000.0116514000.0210 4.999969

浏览 6提问于2020-03-04得票数 1

回答已采纳

点击加载更多