文章/答案/技术大牛

发布

社区首页 >问答首页 >如何在pyspark中创建具有两个输入的UDF

问如何在pyspark中创建具有两个输入的UDF
EN

Stack Overflow用户

提问于 2017-07-11 08:21:13

回答 2查看 6.9K关注 0票数 1

我是pyspark的新手，我正在尝试创建一个简单的udf，它必须接受两个输入列，检查第二列是否有空格，如果有，将第一列拆分为两个值并覆盖原始列。这就是我所做的：

def split(x, y):
if x == "EXDRA" and y == "":
    return ("EXT", "DCHA")
if x == "EXIZQ" and y == "":
    return ("EXT", "IZDA")

udf_split = udf(split, ArrayType())

df = df \
.withColumn("x", udf_split(df['x'], df['y'])[1]) \
.withColumn("y", udf_split(df['x'], df['y'])[0])

但是当我运行这段代码时，我得到了以下错误：

File "<stdin>", line 1, in <module>
TypeError: __init__() takes at least 2 arguments (1 given)

我做错了什么？

谢谢你，阿尔瓦罗

python-2.7

apache-spark

pyspark

回答 2

Stack Overflow用户

回答已采纳

发布于 2017-07-11 09:17:03

我不确定你想要做什么，但根据我的理解，我会这样做：

from pyspark.sql.types import *
from pyspark.sql.functions import udf, col

def split(x, y):
    if x == "EXDRA" and y == "":
        return ("EXT", "DCHA")
    if x == "EXIZQ" and y == "":
        return ("EXT", "IZDA")

schema = StructType([StructField("x1", StringType(), False), StructField("y1", StringType(), False)])
udf_split = udf(split, schema)

df = spark.createDataFrame([("EXDRA", ""), ("EXIZQ", ""), ("", "foo")], ("x", "y"))

df.show()

# +-----+---+
# |    x|  y|
# +-----+---+
# |EXDRA|   |
# |EXIZQ|   |
# |     |foo|
# +-----+---+

df = df \
.withColumn("split", udf_split(df['x'], df['y'])) \
.withColumn("x", col("split.x1")) \
.withColumn("y", col("split.y1"))

df.printSchema()

# root
#  |-- x: string (nullable = true)
#  |-- y: string (nullable = true)
#  |-- split: struct (nullable = true)
#  |    |-- x1: string (nullable = false)
#  |    |-- y1: string (nullable = false)


df.show()

# +----+----+----------+
# |   x|   y|     split|
# +----+----+----------+
# | EXT|DCHA|[EXT,DCHA]|
# | EXT|IZDA|[EXT,IZDA]|
# |null|null|      null|
# +----+----+----------+

票数 3

Stack Overflow用户

发布于 2019-10-16 21:09:56

我想你必须将你的udf定义为：

udf_split = udf(split, ArrayType(StringType()))

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/45029113

复制

分段错误

其他

首先通过 ulimit命令查看一下系统是否配置支持了 dump core 的功能。通过

JNingWei

2018/09/28

1.6K0

如何在 Python 编程学习中避免常见的错误和陷阱？

python 编程程序函数调试

前几天在某乎上看到了一个粉丝提问，如何在 Python 编程学习中避免常见的错误和陷阱？这里拿出来跟大家一起分享下。

前端皮皮

2023/08/17

1940

[译] SIGSEGV：Linux 容器中的分段错误（退出代码 139）

容器 kubernetes linux 容器镜像服务 unix

SIGSEGV，也称为分段违规或分段错误，是基于 Unix 的操作系统（如 Linux）使用的信号。它表示程序尝试在其分配的内存之外进行写入或读取，由于编程错误、软件或硬件兼容性问题或恶意攻击（例如缓冲区溢出）。

CS实验室

2022/08/01

8.4K0

在visual Studio2019中配置MPI【MPI】

mpi 多线程解决方案配置调试

右击项目->属性，进行配置： VC++目录->包含目录，添加：“D:\Program Files (x86)\MPI1\Include;” （替换为你的安装目录）

来杯Sherry

2023/05/25

1.9K0

浅谈内存管理中的分页和分段

linux x86 分页内存管理

内存管理的必要性很早之前计算机只能运行单个进程，就算运行批处理程序，也是棑好对，一个一个的进行处理，不存在多个进程并发运行，这时候内核对于内存管理相对比较简单，直接把物理内存地址拿过来是使用即可。随着计算机演进，支持多进程的OS,多个进程都都使用同一个物理地址空间，很容易多个进程之间相互干扰而引起进程的不可预期的行为。为了解决这个问题，CPU中的MMU(内存管理单元)引入了虚拟地址空间。以32位操作系统经为例，每个进程都可以拥有4G的寻址空间，当进程需要内存时候，通过转换技术和虚拟地址进行关联。MMU通

用户4700054

2022/08/17

1K0

Golang 新手要注意的陷阱和常见错误(一)

go 打包 ide 编程算法

Go 是一门简单有趣的语言，但与其他语言类似，它会有一些技巧。。。这些技巧的绝大部分并不是 Go 的缺陷造成的。如果你以前使用的是其他语言，那么这其中的有些错误就是很自然的陷阱。其它的是由错误的假设和缺少细节造成的。

码农编程进阶笔记

2021/07/20

9140

Golang 新手要注意的陷阱和常见错误(一)[通俗易懂]

go 打包 ide 编程算法

全栈程序员站长

2022/02/17

3720

如何处理Express和Node.js应用程序中的错误

node.js

使用Express创建API时，我们定义了路由及其处理程序。在理想情况下，API的使用者只会向我们定义的路由发出请求，并且路由将正常运行。但是，我们不会生活在理想的世界中：）。Express知道这一点，并使我们API中的错误处理变得轻而易举。

前端知否

2020/03/23

5.7K0

Sentry | 应用程序监控和错误跟踪

容器镜像服务容器 sdk ide jenkins

大家早上好今天是节后的上班的第一天我今天要向大家分享的是 Sentry这个用于应用程序监控和错误跟踪的软件首先我们先看下官方的介绍视频，能帮我们快速了解Sentry http://mpvideo

用户9897904

2022/07/14

1.2K0

Google Play中止俄罗斯用户付费应用程序下载更新

费用中心免费套餐网络安全

Bleeping Computer 网站披露，谷歌将禁止俄罗斯用户和开发者从 Google Play 商店下载或更新付费应用程序。

FB客服

2022/06/08

1K0

MPI错误：提示XXX Credentials for yyy rejected connecting to XXX

windows

MPI错误：提示XXX Credentials for yyy rejected connecting to XXX

ke1th

2019/05/29

1.5K0

MPI错误：提示XXX Credentials for yyy rejected connecting to XXX

分页和分段的联系和区别

存储编程算法

用户程序的地址空间被划分成若干固定大小的区域，称为“页”，相应地，内存空间分成若干个物理块，页和块的大小相等。可将用户程序的任一页放在内存的任一块中，实现了离散分配。

bear_fish

2018/09/20

6.5K0

Fortran中的陷阱-NAMELIST

打包编程算法 ide makefile

NAMELIST（有名列表）是一种特殊的I/O方法，它将一组变量和数值封装在一起，进行输入/输出操作。其声明形式如下：

用户7592569

2020/07/27

3.5K0

MPI on Kubernetes

分布式机器学习神经网络深度学习人工智能

MPI(Message Passing Interface) 是一种可以支持点对点和广播的通信协议，具体实现的库有很多，使用比较流行的包括 Open Mpi, Intel MPI 等等，关于这些 MPI 库的介绍和使用，本文就不多赘述了，各位可以看看官方文档。

runzhliu

2020/08/06

2.2K0

IntegerCache的妙用和陷阱！

java

考虑下面的小程序，你认为会输出为什么结果？ public class Test { public static void main(String[] args) { Integer n1 = 123; Integer n2 = 123; Integer n3 = 128; Integer n4 = 128; System.out.println(n1 == n2); System.out

Java技术栈

2018/03/29

6780

前端-CSS Grid中的陷阱和绊脚石

css

2017年3月，CSS Grid在几个星期内就被发送到Chrome、Firefox和Safari的生产版本中。很高兴，大家可以使用它来解决实际问题。

grain先森

2019/03/29

4.9K0

编程中的典型错误操作：应用程序级别

腾讯云测试服务测试策略 git github 开源

本文是该系列的第二篇。软件开发是一项越来越普遍的工作，但是在开发的过程中，有一些错误是我们经常遇到，或者是一犯再犯的，所以 George 在本文中整理了在应用级别常见的错误。

深度学习与Python

2021/11/10

7440

ASP.NET Core中处理中止的请求

http

当用户向应用程序发出请求时，服务器将解析该请求，生成响应，然后将结果发送给客户端。用户可能会在服务器处理请求的时候中止请求。就比如说用户跳转到另一个页面中获取说关闭页面。在这种情况下，我们希望停止所有正在进行的工作，以浪费不必要的资源。例如我们可能要取消SQL请求、http调用请求、CPU密集型操作等。

HueiFeng

2020/05/27

8260

Python中的错误和异常

python attributeerror importerror nameerror 异常

错误是程序中的问题，由于这些问题而导致程序停止执行。另一方面，当某些内部事件发生时，会引发异常，从而改变程序的正常流程。

用户7466307

2020/07/02

2.7K0

Arbitrum 桥中的消息陷阱

https 网络安全 github git 开源

所以我在这里，由Jaar 后台[2]加入，这个概念验证的第 100 万次运行不会完成。

Tiny熊

2023/01/09

6380

相似问题

MPI MergeSort信号:中止陷阱:6 (6)

获取()和Scanf()中止陷阱6错误。

在Rails 3中使用Scrapi ..获取分段故障错误/中止陷阱

使用heroku OSX终端命令时使用ruby中止陷阱分段错误

中止陷阱:c中数组的6错误

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

问如何在pyspark中创建具有两个输入的UDF
EN

回答 2

Stack Overflow用户

Stack Overflow用户

MPI MergeSort信号:中止陷阱:6 (6)

获取()和Scanf()中止陷阱6错误。

在Rails 3中使用Scrapi ..获取分段故障错误/中止陷阱

使用heroku OSX终端命令时使用ruby中止陷阱分段错误

中止陷阱:c中数组的6错误

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在pyspark中创建具有两个输入的UDFEN

回答 2

Stack Overflow用户

Stack Overflow用户

MPI MergeSort信号:中止陷阱:6 (6)

获取()和Scanf()中止陷阱6错误。

在Rails 3中使用Scrapi ..获取分段故障错误/中止陷阱

使用heroku OSX终端命令时使用ruby中止陷阱分段错误

中止陷阱:c中数组的6错误

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在pyspark中创建具有两个输入的UDF
EN