文章/答案/技术大牛

发布

社区首页 >问答首页 >如何在PySpark ML中创建自定义标记器

问如何在PySpark ML中创建自定义标记器
EN

Stack Overflow用户

提问于 2018-01-16 17:56:30

回答 1查看 3.3K关注 0票数 2

sentenceDataFrame = spark.createDataFrame([
        (0, "Hi I heard about Spark"),
        (1, "I wish Java could use case classes"),
        (2, "Logistic,regression,models,are,neat")
    ], ["id", "sentence"])
tokenizer = Tokenizer(inputCol="sentence", outputCol="words") 
tokenized = tokenizer.transform(sentenceDataFrame)

如果我运行命令

tokenized.head()

我希望得到这样的结果

Row(id=0, sentence='Hi I heard about Spark',
    words=['H','i',' ','h','e',‘a’,……])

但是现在的结果是，

Row(id=0, sentence='Hi I heard about Spark',
    words=['Hi','I','heard','about','spark'])

有没有办法通过PySpark中的Tokenizer或RegexTokenizer来实现这一点？

类似的问题在这里：Create a custom Transformer in PySpark ML

python

apache-spark

pyspark

spark-dataframe

apache-spark-mllib

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-01-16 19:02:13

看一看pyspark.ml documentation。Tokenizer只按空格拆分，但是RegexTokenizer -顾名思义-使用正则表达式来查找拆分点或要提取的标记(可以通过参数gaps进行配置)。

如果您传递一个空模式并保留gaps=True (这是默认设置)，您应该会得到您想要的结果：

from pyspark.ml.feature import RegexTokenizer

tokenizer = RegexTokenizer(inputCol="sentence", outputCol="words", pattern="")
tokenized = tokenizer.transform(sentenceDataFrame)

票数 7

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/48278489

复制

相似问题

问如何在PySpark ML中创建自定义标记器
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在PySpark ML中创建自定义标记器EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在PySpark ML中创建自定义标记器
EN