gensim:在doc2vec词汇表中检索词频

、、、、

我刚刚在doc2vec模型词汇表中遇到了的单词统计。我想知道是否有其他方法可以检索单词频率，而不是 print(str(word) + str(vocab_obj.count)) 也许有一种更好的方式通过gensim库(即在txt文件中输出单词和频率)？

浏览 20提问于2018-01-30得票数 0

1回答

Gensim Word2Vec或FastText从频率构建词汇

、、、

我想知道gensim中的.build_vocab_from_freq()函数到底是做什么的？如果我不使用它，有什么区别？谢谢!

浏览 12提问于2019-12-17得票数 0

回答已采纳

1回答

获取doc2vec中未见段落的段落表示形式

、、

我想使用genism doc2vec模型来完成分类任务。然而，doc2vec的gensim实现似乎需要在训练模型之前查看所有文档(训练和测试)来构建词汇表。否则，如果要获取构建词汇表时不存在的文档的文档向量，则会得到keyerror。我想知道我的理解是否正确！在实践中，人们无法在训练时访问测试数据。有没有办法在测试时更新词汇表，以便能够获得测试文档的文档表示？

浏览 1提问于2016-05-01得票数 2

1回答

如何通过R中的网格使用TaggedDocument函数(Gensim \ Doc2Vec)？

、、、

我试图通过网络在R环境中运行Python的gensim包。更具体地说，我正在尝试构建一个doc2vec模型，为此需要准备一个标记和标记集。import pandas as pdfrom gensim.models.doc2vec import Doc2Veclibrary(reticulate) ge

浏览 8提问于2020-04-30得票数 1

2回答

AttributeError:模块'gensim.utils‘没有特性'smart_open’

、、、

我正在使用Doc2vec构建词汇表，但出现错误"AttributeError: module 'gensim.utils‘has no attribute 'smart_open'“。这是针对Databricks平台的笔记本，运行在Python3中。在过去，我曾尝试在本地Jupyter notebook上运行代码，但出现了相同的错误。model = Doc2Vec(window=5, min_count=1, size=50, sample=1e-

浏览 6提问于2019-07-22得票数 2

6回答

更新gensim* word2vec模型*

、

我有一个用gensim训练过的超过98892个文档的word2vec模型。对于没有出现在句子数组中的任何给定句子(即，我在其上训练模型的集合)，我需要用该句子更新模型，以便下次查询它时会给出一些结果。model.most_similar(positive=['moscow', 'weather', 'cold']) File "/Library/Python/2.7/site-packages/gensim

浏览 1提问于2014-03-02得票数 38

3回答

有没有办法从doc2vec模型中获得词汇表的大小？

、、

我正在使用gensim doc2vec。我想知道是否有任何有效的方法来了解doc2vec的词汇表大小。一种粗糙的方法是计算单词总数，但是如果数据是巨大的(1GB或更多)，那么这将不是一种有效的方法。

浏览 5提问于2017-01-12得票数 7

回答已采纳

3回答

在自然语言处理中有没有减少词汇表大小的好方法？

、、、

在处理文本分类、问答等任务时，从语料库生成的原始词汇量通常太大，包含许多“不重要”的单词。我见过的最流行的减少词汇量的方法是丢弃停用词和低频词。例如，在gensim中 Remove all entries from但在实践中，设置最小计数是经验上的，似乎并不十分准确。我注意到词汇表中每个单词的词频通常遵循长

浏览 0提问于2020-02-11得票数 1

1回答

如何在doc2vec中引入最大词汇量

、、、

Doc2vec在创建词汇表时，有可能将单词在文档中的最小出现作为参数min_count包含在词汇表中。model = gensim.models.doc2vec.Doc2Vec(vector_size=200, min_count=3, epochs=100,workers=8) 怎样才能用某种参数排除经常出现的单词呢我知道一种方法是在预处理步骤中手动删除这些单词并对每个单词进行计数，但是如果知道是否有内置的方法来做

浏览 1提问于2019-06-06得票数 2

回答已采纳

1回答

Gensim Doc2vec - KeyError：“训练语料库中未见标签/无效标记”

、、

我正在使用gensim的Doc2vec从新闻文章中学习特性。我可以成功地训练我的文件。但是，我很难从模型中检索文档向量以供进一步处理。示例代码(直接采用)：from gensim.test.utils import common_textsdocuments = [TaggedDocument((doc), [i]) for i, doc in enum

浏览 0提问于2018-12-15得票数 2

1回答

加载Doc2Vec模型并得到新的句子向量

、、、

我读过很多关于doc2vec的例子，但是我没有找到任何答案。就像一个实际的例子，我想用doc2vec构建一个模型，然后用一些ML模型来训练它。在此之后，如何才能得到具有精确训练的Doc2vec模型的原始字符串的向量？因为我需要用相同大小和逻辑向量的ML模型进行预测。

浏览 1提问于2018-02-06得票数 0

1回答

gensim doc2vec从预培训模型中培训更多的文档。

、、、

我正在尝试用新的标签文档(TaggedDocument)来训练经过预先训练的模型.现在，我想用新的文档来训练预先训练过的模型，这些文档是label2_index的唯一标识，例如Bad_0、Bad_1.到Bad_1211，所培训的数据的总大小约为1211。如果我从一开始就完全接

浏览 1提问于2018-02-21得票数 2

回答已采纳

1回答

如何正确标记Gensim* TaggedDocument()的文档列表*

、、

我想用Gensim TaggedDocument()标记一个文档列表，然后将这些文档作为Doc2Vec()的输入传递。for document in X.values] for text in texts] model = gensim.models.Doc2Vec

浏览 0提问于2018-04-03得票数 2

回答已采纳

1回答

如何将一个模型的word2vec词汇应用到另一个模型中？

、、

我有一个Doc2Vec's模型，我想创建不同维度的Word2vec's模型。如何使用Doc2Vec的模型vocab进行快速训练？或者像这样训练是feasible吗？

浏览 1提问于2015-07-30得票数 0

1回答

AttributeError: python模块中的“list”对象没有属性“word”

、、、、

在使用doc2vec进行培训时，我得到了以下错误： AttributeError: 'list' object has no attribute 'words' in python gensim module我使用python 2.7.11，gensim版本为3.2.0，如果这有帮助的话。一定有什么东西我真的错过了。

浏览 2提问于2018-01-04得票数 1

回答已采纳

1回答

优化窗口7中的gensim(C compilier and BLAS)

、、、、

我想优化gensim以在Window7中运行Window7我按照以下指令安装gensim：然而，在这个页面()中，它是说在安装gensim在安装gensim之前，请确保您有一个C编译器，以使用优化(编译) doc2vec培训(70x加速比博客)。在本

浏览 3提问于2017-10-31得票数 0

回答已采纳

1回答

gensim doc2vec给出了未确定的结果

、、

我正在使用gensim python库中的Doc2Vec模型。我用它的方式有什么问题吗？感谢您提前回复。下面是我的代码：model = Doc2Vec(sentences, dm

浏览 7提问于2017-12-20得票数 0

回答已采纳

1回答

doc2vec -用于doc2vec培训的输入格式和python中的infer_vector()

、、、

在gensim中，当我给出一个字符串作为训练doc2vec模型的输入时，我得到了以下错误：机器学习是计算机科学的一个子领域，它是在模式识别研究的基础上发展起来的。阿瑟?塞缪尔将机器学习定义为一个给予计算机学习能力的研究领域。, "a", "Field", "of",

浏览 2提问于2016-09-21得票数 2

回答已采纳

1回答

Gensim n_similarity单词不在词汇表中

、

我的代码如下：from gensim import similarities,corpora,models我现在面临的问题是：反馈KeyError：“单词‘其他词’不在词汇表中

浏览 0提问于2018-07-10得票数 1

回答已采纳

1回答

将Doc2Vec语句组合成段落向量

、

在Gensim的Doc2Vec中，如何将句子向量组合成段落的单个向量？我知道你可以对整个段落进行培训，但显然最好是对个别句子、语境等进行培训(我认为.) 有什么建议或正常用例吗？另外，如何从模型中检索句子/段落向量？

浏览 1提问于2015-08-05得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Gensim Word2Vec或FastText从频率构建词汇

获取doc2vec中未见段落的段落表示形式

如何通过R中的网格使用TaggedDocument函数(Gensim \ Doc2Vec)？

AttributeError:模块'gensim.utils‘没有特性'smart_open’

更新gensim* word2vec模型*

有没有办法从doc2vec模型中获得词汇表的大小？

在自然语言处理中有没有减少词汇表大小的好方法？

如何在doc2vec中引入最大词汇量

Gensim Doc2vec - KeyError：“训练语料库中未见标签/无效标记”

加载Doc2Vec模型并得到新的句子向量

gensim doc2vec从预培训模型中培训更多的文档。

如何正确标记Gensim* TaggedDocument()的文档列表*

如何将一个模型的word2vec词汇应用到另一个模型中？

AttributeError: python模块中的“list”对象没有属性“word”

优化窗口7中的gensim(C compilier and BLAS)

gensim doc2vec给出了未确定的结果

doc2vec -用于doc2vec培训的输入格式和python中的infer_vector()

Gensim n_similarity单词不在词汇表中

将Doc2Vec语句组合成段落向量

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐