腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
使用
udf
选择
数据
框
的
列
、
、
、
我
使用
spark-shell,并希望
使用
select和
udf
从另一个
数据
帧(df1)创建一个
数据
帧(df2)。但是当我想要显示df2 ==> df2.show(1)时出现错误。var df1 = sql(s"select * from table_1") scala>
浏览 12
提问于2019-06-01
得票数 1
回答已采纳
2
回答
尝试应用lambda创建新
列
时,"'DataFrame‘对象没有属性' apply '“
、
、
、
我
的
目标是在Pandas DataFrame中添加一个新
列
,但我遇到了一个奇怪
的
错误。其他可能有用
的
信息:*我正在
使用
Spark和Python 2。
浏览 7
提问于2018-06-05
得票数 3
回答已采纳
1
回答
将整行
的
配置单元
UDF
作为输入
、
、
我正在寻找编写通用
数据
清理框架
的
方法,该框架基于为给定
数据
集配置
的
位置和类型来清理整个行。
数据
集中
的
样本输入记录如下所示,现在,配置将基于位置(从索引1开始)。这是在
数据
集级别配置
的
。 现在,如果这些
UDF
必须插入hive或pig,那么hive\Pig
UDF
应该有一种方法来接受整个行作为输入。
UDF
应该根据可配置<e
浏览 0
提问于2016-02-11
得票数 1
1
回答
SSIS OLE
使用
DBCommand调用tsql函数
、
、
列
和一个名为DepartureTimeZoneKey
的
整数列。我正在尝试创建一个OLE命令,该命令填充一个名为DepartureDate
的
列
,该
列
保存调用
的
值: dbo.
udf
_ConvertFromGMT(DepartureDateGMT,DepartureTimezoneKey我没有更新/插入到现有表中,我只是尝试将结果存储到
数据
流dataset
的
每一行
的
DepartureDate
列
中
浏览 4
提问于2010-08-20
得票数 1
回答已采纳
2
回答
根据变量/查询结果
选择
列
的
优雅方法?
、
、
SQL可以以某种方式查询该列作为来自
UDF
的
输出吗? 这是业务需要管理
选择
输出
的
规则
的
地方,因此它们需要在可更新
的
表中。它接收一个源列名,一个源
列
值,它在rules表中进行查找。如果规则发现该
列
与该值匹配,则
选择
并返回一个output column,否则将
使用
默认
的
output column。这是需要
选择
的
列
,因此可能与输入或输入值
浏览 3
提问于2013-04-16
得票数 3
回答已采纳
2
回答
查找和替换不工作
的
数据
星火scala
、
、
我有以下
数据
:+----------+-----++----------+-----+|2017-06-||2017-06-23| 2||2017-06-30| 1| 我希望将计数值替换为0,其中它大于1,即得到
的
数据
应该是
浏览 3
提问于2017-07-18
得票数 0
回答已采纳
1
回答
使用
udf
以编程方式从dataframe中
选择
列
、
、
我正在尝试
使用
包含
UDF
的
配置文件提取
数据
帧
的
列
。如果我在客户机上将
选择
列
定义为列表,它就可以工作,但是如果我从配置文件导入列表,则
列
列表
的
类型为string。有没有别的办法。
使用
pyspark打开火花壳。from pyspark.sql.functions import
udf
def squared_
udf
浏览 8
提问于2019-06-18
得票数 1
1
回答
我能看到在Spark中
UDF
函数
的
实现吗?
、
、
正如我所发现
的
,Spark没有散
列
函数。为了
选择
特定
的
散
列
数据
,我需要
使用
这样
的
自定义/
UDF
函数 sparkSession.
udf
.register("hashFuncWithSecret", (s: String) => myHashFunction
浏览 2
提问于2022-02-19
得票数 -1
回答已采纳
3
回答
Spark 1.5.2: org.apache.spark.sql.AnalysisException:未解析
的
运算符联合;
我有两个
数据
帧df1和df2。|-- projects: array (nullable = true)df1是从avro文件创建
的
,而df2是从等效
的
拼图文件创建
的
。
浏览 0
提问于2016-07-29
得票数 16
回答已采纳
2
回答
access 2007
使用
子查询添加
列
、
、
我正在尝试将新表中
的
两
列
添加到当前
的
查询结果中。就像这样: 在SQL中,我将执行如下操作: ,A.Clm2,(从
udf
_number NT中
选择
NT.
udf
_type_id=1和NT.id=A.id)作为NewColumn1,(从newTable NT
选择
NT.
udf
_type_id=2和NT.id=A.id中
的
NewColumn2 )作为NewColumn2从TableA
浏览 0
提问于2013-04-18
得票数 0
4
回答
如何将向量
的
列
拆分成两
列
?
、
、
我
使用
PySpark。output2 = output.withColumn('prob1', output.map(lambda r: r['probability
浏览 2
提问于2016-05-19
得票数 7
3
回答
在Spark
UDF
中操作
数据
帧
、
、
、
我有一个从dataframe过滤和
选择
值
的
UDF
,但它遇到了"object not serializable“错误。详情见下文。假设我有一个dataframe df1,它
的
列
具有名称("ID“、"Y1”、"Y2“、"Y3”、"Y4“、"Y5”、"Y6“、"Y7”、"Y8“、"Y9”、"Y10")。我想要根据来自另一个dataframe df2
的
匹配
的<
浏览 20
提问于2018-02-21
得票数 3
回答已采纳
1
回答
PySpark -迭代
数据
框
的
行
我需要迭代pyspark.sql.dataframe.DataFrame.DataFrame
的
行。我以前在pandas中用iterrows()函数做过,但我需要在不
使用
pandas
的
情况下为pyspark找到类似的东西。
浏览 1
提问于2018-07-03
得票数 1
回答已采纳
1
回答
如何在NiFi中
使用
UDF
?
、
、
我试图对
数据
进行加密,以便只加密某些
列
。示例:{col1,col2,col3,col4} => {col1,加密(Col2),col3,encrypted(col4)} 如果我
的
加密过程可以通过
使用
udf
来完成,我如何在NiFi中注册和/或
使用
udf
?在Hive中,可以首先注册
udf
,例如:
使用
jar‘hdfs/path/to/jar/abc.jar’将临时函数
udf</
浏览 0
提问于2018-11-05
得票数 1
回答已采纳
1
回答
如何处理不同类型
的
PySpark自定义项返回值?
、
、
、
、
我有一个只有一
列
的
数据
框
。在此
数据
框
的
每一行中,都有一个列表。,它基本上将列表中
的
第一个数字加1,并将列表中
的
第二个数字加1.5。def calculate(mylist) : y = mylist[1] + 1.5 return x,y 问题是,当我对我
的
数据
框
应用这个函数时,它会返回这就是我这样做
的
方式。为了便于
浏览 25
提问于2020-01-23
得票数 0
回答已采纳
2
回答
RDD对混合DataFrame API
的
UDF
性能
的
影响
、
、
、
、
虽然Spark鼓励在可能
的
情况下
使用
DataFrame API,但如果DataFrame API不够,通常是
选择
回到RDD还是
使用
UDF
。这两种
选择
之间是否存在内在
的
性能差异?RDD和
UDF
相似,因为它们都不能从催化剂和钨
的
优化中获益。是否还有其他开销,如果存在,这两种方法之间是否有区别?为了给出一个具体
的
例子,假设我有一个DataFrame,它包含一
列
具有自定义格式
的
文本
浏览 2
提问于2016-08-09
得票数 9
1
回答
基于需要外部API调用
的
现有
列
,创建新
的
列
的
最佳方法是什么?
、
、
、
我在一个基于Python
的
木星笔记本中
使用
了一个
数据
采集卡。我想根据现有
列
的
内容添加一个额外
的
列
,其中新
列
的
内容来自于对原始
列
运行外部API调用。我
的
数据
比较大,大约有70000行,其中col1可以有100个到10000+字符
的
文本。<e
浏览 0
提问于2018-04-05
得票数 0
回答已采纳
1
回答
使用
DataFrame向现有的withColumn添加两
列
、
、
我有一个有几列
的
DataFrame。现在,我想向现有的DataFrame中再添加两
列
。df.withColumn("newColumn1",
udf
(col("somecolumn")))实际上,我可以
使用
newcoOlum
浏览 2
提问于2016-12-04
得票数 38
回答已采纳
1
回答
Pyspark
使用
另一
列
中
的
值替换Spark dataframe
列
中
的
字符串
、
、
我想通过从另一
列
创建搜索字符串来替换
列
中存在
的
值id address st之后
的
1 2.PA1234.la 1234 2 10.PA125.la
浏览 4
提问于2018-02-20
得票数 1
1
回答
处理spark select语句中
的
错误记录
我有一个要从
数据
帧中
选择
的
SeqColumn。一些
列
可以是
udf
,因此可能有一
列
选择
了字符串列,并试图将其转换为双精度。有时,此列可能为null。是否有可能捕获抛出异常
的
记录,返回可以正确处理
的
记录
的
数据
帧,而不是终止整个
数据
帧
的
处理。目前,我有以下代码,如果价格为空
的
单行,整个操作将失败。def stringToLong(s: String):
浏览 4
提问于2019-11-22
得票数 1
点击加载更多
相关
资讯
使用Python更改数据框中的指定列
数据选择行或者列
热列欢迎“钥石科技”选择使用订单日记
热列祝贺“乐莎餐饮”选择使用订单日记
热列祝贺“木寸野集”选择使用订单日记
热门
标签
更多标签
云服务器
ICP备案
云直播
即时通信 IM
实时音视频
活动推荐
运营活动
广告
关闭
领券