使用udf选择数据框的列

文章/答案/技术大牛

发布

1回答

、、、

我使用spark-shell，并希望使用select和udf从另一个数据帧(df1)创建一个数据帧(df2)。但是当我想要显示df2 ==> df2.show(1)时出现错误。var df1 = sql(s"select * from table_1") scala>

浏览 12提问于2019-06-01得票数 1

回答已采纳

2回答

尝试应用lambda创建新列时，"'DataFrame‘对象没有属性' apply '“

、、、

我的目标是在Pandas DataFrame中添加一个新列，但我遇到了一个奇怪的错误。其他可能有用的信息：*我正在使用Spark和Python 2。

浏览 7提问于2018-06-05得票数 3

回答已采纳

1回答

将整行的配置单元UDF作为输入

、、

我正在寻找编写通用数据清理框架的方法，该框架基于为给定数据集配置的位置和类型来清理整个行。数据集中的样本输入记录如下所示，现在，配置将基于位置(从索引1开始)。这是在数据集级别配置的。现在，如果这些UDF必须插入hive或pig，那么hive\Pig UDF应该有一种方法来接受整个行作为输入。UDF应该根据可配置<e

浏览 0提问于2016-02-11得票数 1

1回答

SSIS OLE使用DBCommand调用tsql函数

、、

列和一个名为DepartureTimeZoneKey的整数列。我正在尝试创建一个OLE命令，该命令填充一个名为DepartureDate的列，该列保存调用的值： dbo.udf_ConvertFromGMT(DepartureDateGMT，DepartureTimezoneKey我没有更新/插入到现有表中，我只是尝试将结果存储到数据流dataset的每一行的DepartureDate列中

浏览 4提问于2010-08-20得票数 1

回答已采纳

2回答

根据变量/查询结果选择列的优雅方法？

、、

SQL可以以某种方式查询该列作为来自UDF的输出吗？这是业务需要管理选择输出的规则的地方，因此它们需要在可更新的表中。它接收一个源列名，一个源列值，它在rules表中进行查找。如果规则发现该列与该值匹配，则选择并返回一个output column，否则将使用默认的output column。这是需要选择的列，因此可能与输入或输入值

浏览 3提问于2013-04-16得票数 3

回答已采纳

2回答

查找和替换不工作的数据星火scala

、、

我有以下数据：+----------+-----++----------+-----+|2017-06-||2017-06-23| 2||2017-06-30| 1| 我希望将计数值替换为0，其中它大于1，即得到的数据应该是

浏览 3提问于2017-07-18得票数 0

回答已采纳

1回答

使用udf以编程方式从dataframe中选择列

、、

我正在尝试使用包含UDF的配置文件提取数据帧的列。如果我在客户机上将选择列定义为列表，它就可以工作，但是如果我从配置文件导入列表，则列列表的类型为string。有没有别的办法。使用pyspark打开火花壳。from pyspark.sql.functions import udfdef squared_udf

浏览 8提问于2019-06-18得票数 1

1回答

我能看到在Spark中UDF函数的实现吗？

、、

正如我所发现的，Spark没有散列函数。为了选择特定的散列数据，我需要使用这样的自定义/UDF函数 sparkSession.udf.register("hashFuncWithSecret", (s: String) => myHashFunction

浏览 2提问于2022-02-19得票数 -1

回答已采纳

3回答

Spark 1.5.2: org.apache.spark.sql.AnalysisException:未解析的运算符联合；

我有两个数据帧df1和df2。|-- projects: array (nullable = true)df1是从avro文件创建的，而df2是从等效的拼图文件创建的。

浏览 0提问于2016-07-29得票数 16

回答已采纳

2回答

access 2007使用子查询添加列

、、

我正在尝试将新表中的两列添加到当前的查询结果中。就像这样：在SQL中，我将执行如下操作：，A.Clm2，(从udf_number NT中选择NT.udf_type_id=1和NT.id=A.id)作为NewColumn1，(从newTable NT选择NT.udf_type_id=2和NT.id=A.id中的NewColumn2 )作为NewColumn2从TableA

浏览 0提问于2013-04-18得票数 0

4回答

如何将向量的列拆分成两列？

、、

我使用PySpark。output2 = output.withColumn('prob1', output.map(lambda r: r['probability

浏览 2提问于2016-05-19得票数 7

3回答

在Spark UDF中操作数据帧

、、、

我有一个从dataframe过滤和选择值的UDF，但它遇到了"object not serializable“错误。详情见下文。假设我有一个dataframe df1，它的列具有名称("ID“、"Y1”、"Y2“、"Y3”、"Y4“、"Y5”、"Y6“、"Y7”、"Y8“、"Y9”、"Y10")。我想要根据来自另一个dataframe df2的匹配的<

浏览 20提问于2018-02-21得票数 3

回答已采纳

1回答

PySpark -迭代数据框的行

我需要迭代pyspark.sql.dataframe.DataFrame.DataFrame的行。我以前在pandas中用iterrows()函数做过，但我需要在不使用pandas的情况下为pyspark找到类似的东西。

浏览 1提问于2018-07-03得票数 1

回答已采纳

1回答

如何在NiFi中使用UDF？

、、

我试图对数据进行加密，以便只加密某些列。示例：{col1，col2，col3，col4} => {col1，加密(Col2)，col3，encrypted(col4)} 如果我的加密过程可以通过使用udf来完成，我如何在NiFi中注册和/或使用udf？在Hive中，可以首先注册udf，例如:使用jar‘hdfs/path/to/jar/abc.jar’将临时函数udf</

浏览 0提问于2018-11-05得票数 1

回答已采纳

1回答

如何处理不同类型的PySpark自定义项返回值？

、、、、

我有一个只有一列的数据框。在此数据框的每一行中，都有一个列表。，它基本上将列表中的第一个数字加1，并将列表中的第二个数字加1.5。def calculate(mylist) : y = mylist[1] + 1.5 return x,y 问题是，当我对我的数据框应用这个函数时，它会返回这就是我这样做的方式。为了便于

浏览 25提问于2020-01-23得票数 0

回答已采纳

2回答

RDD对混合DataFrame API的UDF性能的影响

、、、、

虽然Spark鼓励在可能的情况下使用DataFrame API，但如果DataFrame API不够，通常是选择回到RDD还是使用UDF。这两种选择之间是否存在内在的性能差异？RDD和UDF相似，因为它们都不能从催化剂和钨的优化中获益。是否还有其他开销，如果存在，这两种方法之间是否有区别？为了给出一个具体的例子，假设我有一个DataFrame，它包含一列具有自定义格式的文本

浏览 2提问于2016-08-09得票数 9

1回答

基于需要外部API调用的现有列，创建新的列的最佳方法是什么？

、、、

我在一个基于Python的木星笔记本中使用了一个数据采集卡。我想根据现有列的内容添加一个额外的列，其中新列的内容来自于对原始列运行外部API调用。我的数据比较大，大约有70000行，其中col1可以有100个到10000+字符的文本。<e

浏览 0提问于2018-04-05得票数 0

回答已采纳

1回答

使用DataFrame向现有的withColumn添加两列

、、

我有一个有几列的DataFrame。现在，我想向现有的DataFrame中再添加两列。df.withColumn("newColumn1", udf(col("somecolumn")))实际上，我可以使用newcoOlum

浏览 2提问于2016-12-04得票数 38

回答已采纳

1回答

Pyspark使用另一列中的值替换Spark dataframe列中的字符串

、、

我想通过从另一列创建搜索字符串来替换列中存在的值id address st之后的1 2.PA1234.la 1234 2 10.PA125.la

浏览 4提问于2018-02-20得票数 1

1回答

处理spark select语句中的错误记录

我有一个要从数据帧中选择的SeqColumn。一些列可以是udf，因此可能有一列选择了字符串列，并试图将其转换为双精度。有时，此列可能为null。是否有可能捕获抛出异常的记录，返回可以正确处理的记录的数据帧，而不是终止整个数据帧的处理。目前，我有以下代码，如果价格为空的单行，整个操作将失败。def stringToLong(s: String):

浏览 4提问于2019-11-22得票数 1

点击加载更多