社区首页 >问答首页 >如何在PySpark ML中创建自定义标记器

问如何在PySpark ML中创建自定义标记器
EN

Stack Overflow用户

提问于 2018-01-16 09:56:30

回答 1查看 3.3K关注 0票数 2

sentenceDataFrame = spark.createDataFrame([
        (0, "Hi I heard about Spark"),
        (1, "I wish Java could use case classes"),
        (2, "Logistic,regression,models,are,neat")
    ], ["id", "sentence"])
tokenizer = Tokenizer(inputCol="sentence", outputCol="words") 
tokenized = tokenizer.transform(sentenceDataFrame)

如果我运行命令

tokenized.head()

我希望得到这样的结果

Row(id=0, sentence='Hi I heard about Spark',
    words=['H','i',' ','h','e',‘a’,……])

但是现在的结果是，

Row(id=0, sentence='Hi I heard about Spark',
    words=['Hi','I','heard','about','spark'])

有没有办法通过PySpark中的Tokenizer或RegexTokenizer来实现这一点？

类似的问题在这里：Create a custom Transformer in PySpark ML

spark-dataframe

apache-spark-mllib

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-01-16 11:02:13

看一看pyspark.ml documentation。Tokenizer只按空格拆分，但是RegexTokenizer -顾名思义-使用正则表达式来查找拆分点或要提取的标记(可以通过参数gaps进行配置)。

如果您传递一个空模式并保留gaps=True (这是默认设置)，您应该会得到您想要的结果：

from pyspark.ml.feature import RegexTokenizer

tokenizer = RegexTokenizer(inputCol="sentence", outputCol="words", pattern="")
tokenized = tokenizer.transform(sentenceDataFrame)

票数 7

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/48278489

复制

相关文章

在 Microsoft 云上构建应用程序

DevOps 解决方案 github git 开源

Microsoft 云包括了Azure、Power Platform、Microsoft 365、GitHub、Dynamics 365 等，虽然许多企业应用程序开发领导者了解在 Azure 上创建应用程序的价值，但事实是您可以将整个 Microsoft 云作为应用程序平台. 有一篇文章：在 Microsoft 云上构建应用程序从应用程序开发角度介绍了 Microsoft 云的大局，重点介绍领导者必须执行的操作才能取得成功。

张善友

2022/05/31

8350

在 Microsoft 云上构建应用程序

在 WASI 上运行 .NET 7 应用程序

javascript https asp.net .net 网络安全

WASI代表 WebAssembly 系统接口，WASI 让沙盒化的 WebAssembly 应用程序通过一系列类似 POSIX 的函数访问底层操作系统，允许独立于浏览器运行 WebAssembly 代码。这是一个高度实验性的项目，但同时也是一个非常有趣的项目，并且有可能为行业的大规模编程范式转变做出贡献，使 WebAssembly 真正无处不在。

张善友

2022/04/28

1.4K0

在 WASI 上运行 .NET 7 应用程序

Spark 在Yarn上运行Spark应用程序

容器 yarn spark shell node.js

在 YARN 中，每个应用程序实例都有一个 ApplicationMaster 进程，该进程是为该应用程序启动的第一个容器。应用程序负责从 ResourceManager 上请求资源。一旦分配了资源，应用程序将指示 NodeManagers 启动容器。ApplicationMasters 消除了对活跃客户端的依赖：启动应用程序的进程可以终止，并且从在集群上由 YARN 管理的进程继续协作运行。

smartsi

2019/08/07

1.9K0

Linux 运行时设备树

文件存储打包 linux node.js

在根文件系统中查看设备树，是一种不错的调试手段。因为很多时候会出现你修改了 dts 文件，并且也编译了新的 dtb，但是下载到板子上的还是以前的 dtb，因此查看板子中真实生效的设备树配置信息是很重要的。

Jasonangel

2022/02/17

4.4K0

在Mac上为其他设备开启代理

html http .net access

前些日子，想要查看一个Release版本的HTTP请求，由于已经是发布版本，日志已然关闭，遂开始从HTTP代理的思路着手。

技术小黑屋

2018/09/05

6.5K0

如何在Electra越狱的设备上使用LLDB调试应用程序

我试图在google搜索，有关使用Electra越狱的iOS设备上调试AppStore应用程序的简要说明。但令我失望的是，竟然没有找到任何有用的资料。因此我决定写一篇相关的指南，经过我的测试它非常的适用于我，但我无法确定它是否同样适用于你。我在以下设备进行了测试：

FB客服

2018/07/30

2.3K0

如何在Electra越狱的设备上使用LLDB调试应用程序

iOS开发常用之测试调试、动态更新

测试及调试 HeapInspector - HeapInspector是一个用于检测应用程序的内存泄漏的开源调试工具。 Crashlytics - Crashlytics崩溃报告崩溃日志使用说明。 UIViewController-Swizzled - 把你进入的每一个控制器的类名打出来，如果看一些特别复杂的项目的时候直接运行demo就可以知道执行次序了。 snoop-it -snoop-it比UIViewController-Swizzled好用，代码托管在谷歌上。版本 - 版本

GuangdongQi

2018/12/14

3.5K0

苹果不再支持watchOS 1 SDK，watchOS应用遭下架

sdk apple instagram watch watchos

近日、苹果这边为Apple Watch推送watchOS 4.3更新，那边知名社交平台Instagram就宣布砍掉其原生Apple Watch应用。 instagram给出的解释是苹果从4月1日起不再

BestSDK

2018/04/19

5710

苹果不再支持watchOS 1 SDK，watchOS应用遭下架

石墨烯在可穿戴设备上的应用

Graphene coated with nanoparticles has been used to make wearable light sensors that measure the human pulse and blood oxygen levels from ambient light passing through tissue, offering a potential platform for health-care monitoring.

联远智维

2022/01/20

4500

iOS之深入解析Xcode 13正式版发布的40个新特性

xcode swift ios api 性能测试

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/131546.html原文链接：https://javaforall.cn

全栈程序员站长

2022/08/12

8.8K0

在Windows Mobile上隐藏你的应用程序

有时候，我们需要在Windows Mobile上做一些invisible的应用程序，使得用户无法察觉。这几天找了一些资料，请教了Jake等一些朋友，下面就做一个简单的总结。 1. 如何逃脱“任

ShiJiong

2018/01/10

1.2K0

在Windows Mobile上隐藏你的应用程序

使用ProcDump工具解决Windows应用程序崩溃

ProcDump是一个可以用于诊断多种问题点的命令行工具。和Dr.Watson、ADPlus以及DebugDiag一样，ProcDump可以在不期望的情况或者异常发生时，用于俘获一个进程的内存转储。而且也同ADPlus以及DebugDiag一样，它可以对一个挂起的应用程序强制进行进程转储。但和之前的任何工具不同的是，ProcDump可以在CPU的活动峰值达到一个指定的级别时，对一个进程进行转储。这对于那些间歇性的性能问题是特别有用的，对于这种问题，其发生是很难预测的。 ProcDump包括一个单独的可执行

张善友

2018/01/29

2.9K0

群晖NAS上安装虚拟机教程在同一设备上运行多个不同的操作系统和应用程序

操作系统教程配置网络虚拟机

想要在同一设备上运行多个不同的操作系统和应用程序，实现更高效的资源利用吗？本文为您提供详细的群晖NAS虚拟机安装教程，包括硬件要求确认、下载Virtual Machine Manager、创建虚拟交换机、创建虚拟机、配置虚拟机网络和启动虚拟机等6个步骤。通过本文，您可以轻松掌握在群晖NAS上安装虚拟机的方法，以及使用Virtual Machine Manager进行虚拟机管理和网络设置的技巧。

哈德森

2023/04/07

12.3K0

java应用程序镜像制作及在kubernetes上发布

腾讯云测试服务

应用程序镜像制作准备好应用程序 [root@VM_8_24_centos testapp]# ls Dockerfile testapp.tar.gz 编写Dockerfile [root@VM_8_24_centos testapp]# cat Dockerfile # 基础镜像 FROM core-harbor.minminmsn.com/public/jre-centos:1.8.0_212 # 维护信息 MAINTAINER minyt <minyongtao@minminmsn.com>

三杯水Plus

2019/05/29

7340

如何使用MEAT在iOS设备上采集取证信息

ios iphone https 网络安全腾讯云测试服务

MEAT，全称为Mobile Evidence Acquisition Toolkit，即移动设备取证采集工具。该工具旨在帮助安全取证人员在iOS设备上执行不同类型的信息采集任务，将来该工具会添加针对Android设备的支持。

FB客服

2021/10/11

1.6K0

在复杂陌生的Linux设备上，编译安装PHP

打包 php shell apache 云数据库 SQL Server

在一台陌生的SUSE Linux Enterprise上面迁移之前做的一个服务器端接口，需要用到phpredis。

libo1106

2018/08/08

1.3K0

在 Azure 上构建和部署云原生应用程序和容器化应用程序

DevOps 解决方案 kubernetes 容器 spring spring cloud

在 Azure 上有许多选项可供团队构建和部署云原生应用程序和容器化应用程序。不存在适合每个用例和每个团队的完美解决方案。

张善友

2022/03/30

1.2K0

iOS_Crash 异常类型

ios crash 程序内存异常

断点异常类型表示跟踪陷阱(trace trap)中断了该进程。跟踪陷阱使附加的调试器有机会在进程执行的特定点中断进程。在 ARM 处理器上显示为 EXC_BREAKPOINT（SIGTRAP）在 x86_64 处理器上显示为 EXC_BAD_INSTRUCTION（SIGILL）

mikimo

2023/10/18

2K0

检查高 CPU 进程在 Linux 上运行时间的脚本

linux bash bash 指令

给 long-running-cpu-proc.sh 设置可执行的 Linux 文件权限。

用户4988085

2021/09/15

2.1K0

在PaaS上构建SaaS应用程序时先搞清这些

遗留系统含有成千上万个执行一大批业务功能的服务组件。比如说，假设贵企业运行的一个内部遗留系统中的一套组件向企业高管提供一份统计报告。为了赶在截至日之前获得这份每周提交的报告，该高管应该考虑将必要的组件迁移到新的软件即服务(SaaS)应用程序。如果经济可行性研究表明这种迁移是明智的决策，他应该与其他高管以及由开发人员、系统工程师和业务分析人员组成的一个团队合作，将遗留系统细分成多个组件，然后着手开发那个应用程序。 1、识别遗留系统资产开发团队、高管和遗留系统负责人需要识别遗留系统的资产。这些资产包括如下：

静一

2018/03/21

1K0

相似问题

釜(PDI) 8.1读取xml错误

20

压缩文件静默读取失败吗？

16

jQuery和XML-读取远程资源失败

11

错误:任务':app:transformDexWithInstantRunSlicesApkForDebug'.执行失败读取压缩文件失败

40

使用jsch和sftp读取远程文件-失败4

12

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例