腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
对
dataframe
列
运行
UDF
时
出错
、
、
、
我从hive提取了一些数据到
dataframe
,格式如下所示。 E值,并创建一个新的云,在另一
列
中具有相应的信号值,如下所示。
UDF
#1: def
UDF
_E:UserDefinedFunction=
udf
((r: Row)=>{ +-------+-------------+----
浏览 44
提问于2019-10-11
得票数 0
回答已采纳
1
回答
我可以给熊猫发送一个火花数据作为论据吗?
、
、
、
、
是否有可能发送一个火花数据作为一个论据给熊猫
UDF
和得到一个熊猫的数据作为回报。下面是我正在使用的示例代码集,并且在调用函数
时
出错
:from pyspark.sql import SparkSessiondef count_
udf
(v: pd.
DataFrame
) -> pd.
DataFrame
:
浏览 4
提问于2020-11-26
得票数 1
回答已采纳
2
回答
在spark scala函数中将List作为参数传递会导致错误
、
我有一个spark scala
udf
,它接受一个参数作为
dataframe
的
列
,另一个参数作为列表,但当我
运行
该函数
时
,它抛
出错
误,指向列表参数为我正在
运行
udf
,参数如下:请指导
浏览 2
提问于2018-08-19
得票数 0
3
回答
检查
列
是否包含列表中的某一元素的Pyspark;
UDF
。
、
我有一个
dataframe
,我想检查它的
列
中是否至少包含一个关键字:import pyspark.sql.functions as0: else: df = spark.createData
浏览 2
提问于2020-05-06
得票数 2
回答已采纳
1
回答
基于需要外部API调用的现有
列
,创建新的
列
的最佳方法是什么?
、
、
、
我想根据现有
列
的内容添加一个额外的
列
,其中新
列
的内容来自于
对
原始
列
运行
外部API调用。df2.cache()此代码的目
浏览 0
提问于2018-04-05
得票数 0
回答已采纳
1
回答
AttributeError:'NoneType‘对象没有属性’NoneType‘
、
、
、
、
我有一个PySpark
Dataframe
(df),并试图添加一个
列
(capital_names),它将是一个现有的
列
(名称),其名称被转换为大写字母。我所做的工作如下: return text.upper() df2 =df.withColumn("capital_names",
udf
_capital("names"
浏览 4
提问于2021-01-05
得票数 3
回答已采纳
1
回答
PySpark:带有标量Pandas的无效returnType
、
、
我正在尝试从pandas_
udf
返回一个特定的结构。它在一个集群上工作,但在另一个集群上失败。我尝试在组上
运行
udf
,这需要返回类型为数据框架。from pyspark.sql.functions import pandas_
udf
import numpy as np oneCar.loc[1:, 'Lati
浏览 2
提问于2018-03-26
得票数 5
回答已采纳
1
回答
把熊猫变成火花公子
(left_on=column1, right_on=column2, window=41) 它基本上比较一
列
和另一
列
,并为可能相同的
列
生成索引
对
(记录匹配)。我的代码:df2 = spark.read.load(*.csv) func_
udf
=
udf
(index.indexer) ????df = df.withColumn('c
浏览 0
提问于2018-07-25
得票数 0
回答已采纳
1
回答
不能在pyspark中使用python eval()作为pandas
udf
,但在python
udf
中使用相同
、
、
、
、
我是pyspark中的pandas
udf
的新手,需要帮助为大型数据帧(>1亿行)中的每一行应用
udf
。我的
dataframe
中有一
列
,其中包含使用
dataframe
中的
列
的多个条件。
对
每一行应用条件的最好方法是使用python eval。当在python
udf
中使用python eval
时
,它工作得很好,但是
运行
起来需要很长时间,因为我有几百万行。同样,在Pandas
udf
中尝试
浏览 29
提问于2021-06-25
得票数 0
2
回答
wrappedArray火花阵列
、
、
我试图使用一个
UDF
,它接受2
列
,然后在每一
列
的每一行上同时
运行
一个函数。当我在列上做.dtypes
时
,我得到:当我
对
其中一
列
进行一次(1)
时
,我会得到一个 Array[org.apache.spark.sql.Row] = Array([WrappedArray(1234, 4567, 789, 1346)])
浏览 0
提问于2018-04-09
得票数 1
回答已采纳
1
回答
将Spark
dataframe
中的所有":“替换为"_”
、
、
、
我正在尝试替换Spark
dataframe
的单个
列
中":“--> "_”的所有实例。我正在尝试这样做: s.replaceAll(":","_")val url_cleaner_
udf
=
udf
(url_cleaner) val df = old_df.withColumn("newCol", url_cleaner_
udf
(old
浏览 0
提问于2016-09-04
得票数 6
回答已采纳
1
回答
如何将
DataFrame
作为输入传递给Spark
UDF
?
、
、
、
我有一个
dataframe
,我想
对
每一行应用一个函数。此函数依赖于其他数据帧。 prev_value = value def get_score_for_key(scores_df,
浏览 0
提问于2017-11-27
得票数 7
回答已采纳
2
回答
Apache为什么用户定义函数返回错误的值
、
、
、
、
问题:在调用User Defined Function (
UDF
)
时
,我似乎没有在下面的代码中做一些正确的事情。为什么输出不是“这是一个测试”?pyspark.sql import functions as F new_name = F.
udf
浏览 13
提问于2022-07-14
得票数 0
1
回答
R
对
非数字参数应用中断。
、
我
对
apply函数缺乏很好的理解,这可能会导致在遍历
dataframe
(其中一
列
是字符)
时
出现错误消息。当我将其中一个
列
更改为字符
时
,如果我一个接一个地传递
dataframe
的行,那么我的
UDF
仍然工作。然而,一使用apply,就会得到以下错误:
浏览 0
提问于2018-10-03
得票数 0
回答已采纳
1
回答
为什么这个List[String]到数据仓库NullPointerException在斯派克斯卡拉?
、
我不确定,这个异常是发生在某些行上,还是总是因为
dataframe
很大而无法指向行。").filter(word => (word.matches("[a-z]+") && (word.length > 1))).mkString(" ")似乎我们无法在
UDF
中创建数据。难道不可能在
UDF
中创建临时数据吗?
浏览 0
提问于2018-11-30
得票数 0
回答已采纳
2
回答
Scala和Spark
UDF
函数
、
、
、
我创建了一个简单的
UDF
来转换或提取spark中temptabl中的时间字段的一些值。我注册了该函数,但是当我使用sql调用该函数
时
,它抛出了一个NullPointerException。java.text.SimpleDateFormat("HH:mm") return sdf.format(time1)注册函数 sqlContext.
udf
.register
浏览 14
提问于2016-07-28
得票数 11
回答已采纳
1
回答
将函数(mkString)应用于Spark
dataframe
中的整个
列
,如果列名具有“.
、
、
我正在尝试在Scala中
对
Spark
dataframe
的
列
应用函数。该
列
是字符串类型,我想用"_“分隔符将字符串中的每个标记连接起来(例如"A B“--> "A_B")。我这样做的原因是:val myUDF =
udf
(converter)
浏览 3
提问于2016-09-03
得票数 2
回答已采纳
1
回答
用spark.sparkContext.addPyFile导入Pandas
、
、
、
当我在jupyter笔记本上
运行
以下代码
时
,它不会
出错
。df = pd.
DataFrame
({'a': a, 'b': b})#print(multiply_func(x, x))# 1 4# dtype: int64 # Create a Spark
浏览 5
提问于2021-08-30
得票数 2
回答已采纳
1
回答
在Apache中使用
UDF
内部的Word2Vec函数(v2.3.1)
、
、
、
、
我有一个
dataframe
,它由两个
列
组成,一个是Int,另一个是字符串:|user_id |token419| Grilling|我需要在Word2Vec词汇表中为" token“
列
中的每个令牌找到我试图在
udf
中使用findSynonymsArray方法: def getSyn( w2v : Word2VecModel )
浏览 0
提问于2018-11-14
得票数 2
回答已采纳
1
回答
使用
UDF
处理多
列
时
堆栈溢出
、
、
、
、
我有一个
DataFrame
,它有许多str类型的
列
,我想
对
所有这些
列
应用一个函数,在不重命名它们的名称或添加更多
列
的情况下,我尝试使用一个执行withColumn的for-in循环(参见下面的例子),但是通常当我
运行
代码
时
,它会显示一个Stack Overflow (它很少工作),这个
DataFrame
一点也不大,它只有~15000条记录。# df is a
DataFrame
r
浏览 2
提问于2016-01-28
得票数 6
回答已采纳
点击加载更多
相关
资讯
如何对 dataframe中的某一列数据 开根号呢?
教程:Apache Spark SQL入门及实践指南!
如何在EsgynDB中使用机器学习库
用神经网络算法,预测乳腺肿瘤性质
Spark 2.4重磅发布:优化深度学习框架集成,提供更灵活的流式接收器
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券