我想知道是否可以在批处理模式下训练sparkword2vec。或者换句话说,如果可以更新已经训练过的sparkword2vec模型的词汇表。workers=15) for epoch in range(10):我想知道如何在sparkword2vec中做类似的事情。在spark中,我发现我只能对多个文件进行RDD联合:
from pyspark.mll
现在,我需要将该程序添加到apache spark管道中。这样做的时候,我有一个扩展org.apache.spark.ml.classification.ProbabilisticClassifier的类MovieReviewClassifier,我必须在管道中添加该类的一个实例但是这些特性应该以org.apache.spark.mllib.linalg.VectorUDT的形式出现。有没有办法将字符串转换为Vector UDT?:50)
at org.apache.spark.ml.Predictor.valid
我正在尝试从apache.spark.org (代码如下&整个教程在这里:)运行这个示例,使用他们在他们的站点()上引用的text8文件:importorg.apache.spark.rdd._import org.apache.spark.mllib.feature.{Word2Vec, Word2VecModel}
val input = s