Spark MLin Word2vec

文章/答案/技术大牛

发布

1回答

、、、

我正在尝试运行Spark MLlibs word2vec实现。我正在为this.My输入使用scala，模型是strings.It序列数组，如下所示res11: Array[org.apache.spark.sql.Row] =)] | 这个word2vec模型不是为每个单词创建向量，而是为单词数组创建向量。我不确定向这个模型提供输入的正确方式是什么，以及它是如何打断句子或单词的。

浏览 0提问于2018-01-09得票数 0

回答已采纳

2回答

如何在scala中打印Map[String，Array[Float]]？

、、、、

我使用的是word2vec函数，它位于Spark的mllib库中。我想打印作为输出到"getVectors“函数的单词向量，我的代码如下所示：importorg.apache.spark.SparkContext._

浏览 5提问于2016-07-06得票数 1

回答已采纳

2回答

如何在星火集群环境下有效地训练word2vec模型？

、、

但是，我发现使用Spark进行Word2vec培训并没有充分利用集群的资源。谢谢大家：) 下面的命令是我用来在星火壳中训练word2vec模型的命令：//import related p

浏览 7提问于2015-12-20得票数 3

1回答

火花word2vec示例说明及如何获得字符串间的相似性

、、、

我按照Spark页面中的示例使用word2vec，。它起了作用，但我不太明白它想要计算什么。如何使用Spark word2vec计算字符串列表之间的相似性？

浏览 6提问于2017-06-05得票数 0

回答已采纳

1回答

能否以批处理模式训练spark word2vec模型

、

我想知道是否可以在批处理模式下训练spark word2vec。或者换句话说，如果可以更新已经训练过的spark word2vec模型的词汇表。workers=15) for epoch in range(10):我想知道如何在sparkword2vec中做类似的事情。在spark中，我发现我只能对多个文件进行RDD联合： from pyspark.mll

浏览 2提问于2016-10-26得票数 2

1回答

为什么spark.ml.feautures.Word2Vec要将句子向量化而不是单个单词？

、

在理解星火中的Word2Vec与gensim 1有何不同的过程中，我对Spark (参考链接：https://spark.apache.org/docs/2.2.0/ml-features.html#word2vecword2vec的目的不是将单个单词嵌入向量空间吗？为什么要嵌入整个句子？如何对word2vec进行适当的训练，然后在星火中应用单个单词？

浏览 0提问于2018-07-27得票数 7

回答已采纳

1回答

Word2Vec : Apache Spark和Tensorflow实现

、、、

这个Word2Vec的实现是 Word2Vec 的一个端口这是论文“向量空间中单词表示的有效估计”的实现吗：？Tensorflow Word2Vec确实参考了论文《向量空间中单词表示的有效估计》。那么，Apache Spark和Tensorflow Word2Vec的实现之间有什么区别，应该在什么条件下使用它们？

浏览 1提问于2017-04-29得票数 1

1回答

如何使用spark加速Word2vec模型的训练？

、

我正在使用spark Word2vec应用程序接口来构建单词矢量。代码： .setInputCol("words")我的电脑环境有24核CPU和100G内存，如何有效地使用它们？

浏览 18提问于2019-08-12得票数 0

1回答

如何将spark mllib word2vec模型转换为glove txt格式？

、、、

我使用Spark MLlib来训练特定于领域的word2vec模型，并且我需要在glove word2vec格式中使用它。如何将其转换为glove txt格式？

浏览 20提问于2018-12-22得票数 0

1回答

Word2Vec火花实现是分布式的吗？

、、、、

我相对来说是个新手，很难理解Spark。我的问题是，我有3TB的文本，我想训练一个Word2Vec模型。我正在运行的服务器大约有1TB的ram，所以我不能临时保存该文件。我的问题是Spark库是否分发Word2Vec培训？如果是这样的话，在处理这么大的文本文件时有什么需要我担心的吗？如果没有，那么在培训Word2Vec时是否仍然要流这些数据？

浏览 3提问于2020-12-17得票数 0

回答已采纳

2回答

使用ApacheSpark2.0.0和mllib进行分布式Word2Vec模型培训

、、、

我一直在尝试使用spark和mllib来训练word2vec模型，但我似乎没有从大型数据集上的分布式机器学习中获得性能上的好处。我的理解是，如果我有w工人，那么，如果我创建一个包含n个分区的RDD，n>w和我试图通过调用以RDD为参数的Word2Vec的fit函数来创建一个Word2Vec模型，然后spark将统一地分发数据，对这些rdd分区，然后用作mllib word2vec模型的培训数据。码 SparkConf conf = new SparkConf().setAppNam

浏览 1提问于2016-09-28得票数 1

回答已采纳

1回答

如何在CBOW模式下运行MLlib的word2vec？

、、、

我的理解是，word2vec可以在两种模式下运行： import org.apache.spark.mllib.feature.{Word2Vec, Word2VecModel} val input = sc.textFile("data/mllib/sample_lda_data.txt").map(

浏览 3提问于2017-09-26得票数 1

回答已采纳

1回答

火花:我能用两个估计器同时调节管道吗？

、、、

我有一个流程(在斯派克的管道)是这样的：将Word2VecModel编辑：在Spark中，管道组件的输入仅为dataframe，输出为dataframe或转换器。

浏览 2提问于2017-09-22得票数 0

2回答

Deeplearning4j to spark管道:将字符串类型转换为org.apache.spark.mllib.linalg.VectorUDT

、、、

现在，我需要将该程序添加到apache spark管道中。这样做的时候，我有一个扩展org.apache.spark.ml.classification.ProbabilisticClassifier的类MovieReviewClassifier，我必须在管道中添加该类的一个实例但是这些特性应该以org.apache.spark.mllib.linalg.VectorUDT的形式出现。有没有办法将字符串转换为Vector UDT？:50) at org.apache.spark.ml.Predictor.valid

浏览 3提问于2016-02-19得票数 1

1回答

如何将星火数据转换为RDD并获取单词包？

、、

val bow_corpus = article.select("processed_title").rdd.flatMap(y => y) 我最终想使用这个bow_corpus来训练一个word2vec

浏览 3提问于2016-03-10得票数 0

回答已采纳

3回答

Spark Word2vec向量数学

、、、

我在看Word2Vec的Spark网站的： val synonyms = model.findSynonyms("country name here

浏览 1提问于2015-12-09得票数 17

2回答

使用text8文件的Spark Word2Vec示例

我正在尝试从apache.spark.org (代码如下&整个教程在这里：)运行这个示例，使用他们在他们的站点()上引用的text8文件：importorg.apache.spark.rdd._import org.apache.spark.mllib.feature.{Word2Vec, Word2VecModel} val input = s

浏览 5提问于2015-07-17得票数 4

1回答

星星之火MLib Word2Vec错误:词汇表大小应>0

、、、、

我正在尝试使用Spark的MLLib实现word矢量化。我正在学习给出的示例。word2vec: org.apache.spark.mllib.feature.Word2Vec = org.apache.spark<

浏览 2提问于2018-01-03得票数 2

回答已采纳

1回答

使用Apache spark* Mlib进行查询分类*

、

我对机器学习了解很多，但对scala和spark还很陌生。由于Spark API卡住了，所以请给我建议。kindle 第一个字段是标签，第二个字段是字符串我的计划是将数据拆分成标签和特征，使用内置函数Word2VecClassification").setMaster("local") val input = sc.textFi

浏览 6提问于2014-12-09得票数 2

1回答

Scala/Spark* -从另一个数据集中创建包含一列的数据集*

、

case class vectorData(value: Array[String], vectors: Vector) val spark.master("local[*]") import spark.implicits._

浏览 18提问于2020-10-12得票数 1

回答已采纳

点击加载更多