有没有一种方法可以将参数添加到spark UDF的列中。我知道你可以在Scala中使用currying,但它并不像我喜欢的那样工作。让我们以此函数为例: for (w <- words) if (word.contains(w)) return true}
单词string是我想要从列中获取的参数。如何在UDF调用<
我正在做一个简单的项目,在apache spark中使用K-Means聚类,我做了一些预处理步骤,如标记化,停止单词删除,和hashingTF。这些是由spark own Tokenization()、StopWordRemover()和HasingTF()执行的。但我想在应用k均值聚类之前执行词干分析。我尝试过openNLP中的一些NLP库。但我不知道如何在spark DataFrame中实现它。有人能教我怎么做吗?