fasttext:有没有一种方法可以导出ngram？

、、、、

我是DL和NLP的新手，最近开始通过gensim使用预先训练好的fastText嵌入模型(cc.en.300.bin)。我找不到一种方法来导出作为模型一部分的n-gram向量。我知道它们是散列的，但也许有一种方法(不一定使用gensim)来获取它们？任何有见地的都将不胜感激！

浏览 16提问于2019-03-12得票数 0

3回答

使用tf-以色列国防军和FastText载体

、、

我对在FastText库中使用tf很感兴趣，但是找到了一种处理ngram的逻辑方法。对于一般的word2vec aproach，我将对每个单词有一个向量，我可以计数该向量的术语频率，并相应地除以它的值。但是对于fastText来说，同一个词会有几个n克，我很高兴.] model['lis']model

浏览 3提问于2019-09-23得票数 7

6回答

如何用Gensim加载FastText预培训模型？

、

我试着从这里加载fastText预培训模型，快速文本模型。

浏览 0提问于2017-06-30得票数 35

回答已采纳

1回答

将快速文本模型转换为tensorflow集线器时出错

、

def _compute_ngrams(word, min_n=1, max_n=3): for w in word[b]: extended_word = BOW + "".join( chr+ 1): ngram.

浏览 0提问于2019-01-16得票数 1

回答已采纳

1回答

设置fastText的最大碳数n克长度

、、、、

在此基础上，将fastText模型的最大长度n-g设置为零，从而使fastText模型的语义精度提高，使得fastText的行为几乎与word2vec相似。它忽略了纳克。但是，在加载fastText模型时，我无法找到如何设置此参数的任何形式。对怎么做有什么想法吗？

浏览 0提问于2017-08-08得票数 0

回答已采纳

1回答

pip一个接一个地从需求中安装2个包

、、

我想使用pip安装fasttext。但是fasttext需要Cython。错误可以在这里看到：Traceback (most recent call last): File "/tmp/pip-install-3if14395/

浏览 6提问于2018-08-17得票数 1

回答已采纳

1回答

创世纪most_similar只找到同义词(不是反义词)

、、、、

有没有一种方法让model.wv.most_similar在gensim中只返回正义词(即表示同义词，而不是反义词)？例如，如果我这样做：from gensim.models.fasttext import load_facebook_modelimport fasttext.util from gensim.m

浏览 1提问于2021-07-19得票数 2

回答已采纳

2回答

在python中根据电子邮件主题和正文进行多分类

、、、

请建议我需要遵循的分类方法。我需要使用哪些ML模型来训练数据和测试数据。分类更像gmail收件箱分类:主要分类、社交分类和促销分类。

浏览 1提问于2018-02-22得票数 0

1回答

为什么Gensim拒绝加载由Fasttext* (Facebook)库构建的监督模型dict？*

、

Traceback (most recent call last): model= FastText.load_fasttext_format('model_ups_tickets_rca.bin') File "/usr/local/lib/python3.5/dist-packages/gen

浏览 6提问于2020-08-24得票数 1

1回答

如何将gensim创建的快速文本模型导出到二进制文件中？

、、、

我试图将gensim创建的快速文本模型导出到二进制文件中。但是医生们还不清楚如何做到这一点。之后，当我想使用以下方法加载模型时：我进入了一个无限循环。在加载由fasttext.model函数创建的model.save('fasttext.model)时，将在大约30秒内完成。

浏览 2提问于2019-11-15得票数 4

回答已采纳

1回答

Gensim Fasttext预培训模型是如何获得词汇外单词的向量的？

、、、

下面是我编写的加载预培训模型的代码：model=ft.load_fasttext_format("wiki.en.bin0.23980476,现在我的困惑是，Fastext也为一个单词的字符ngram因此，对于一个单词“内部”，它将为它的所有字符符号创建向量，包括完整的单词，然后这个单词的最后一个单词向

浏览 2提问于2018-06-13得票数 13

1回答

在Python中高效地按ID计数ngram

、

我当前的解决方案包括使用文本遍历数据帧中的列，使用re.findall计算ngram在每一行中出现的次数，将findall方法的长度放在一个列表中，然后使用该列表在数据帧中创建新列。在一个页面中，最终结果是包含原始列加上10,000列(每个ngram一个)的数据帧，大约需要5个小时。因为我有65页要读完，我估计要花325个小时才能读完所有的内容。我遍历了10,000个ngram<

浏览 0提问于2020-05-20得票数 0

1回答

在存储库中不保留fastText矢量文件的情况下创建word嵌入

、、

我正在尝试在Infersent的帮助下嵌入一个句子，而Infersent使用fastText向量来嵌入单词。fastText向量文件接近5 GiB。当我们将fastText向量文件与代码存储库一起保存时，它会使存储库变得巨大，并使代码难以共享/部署(甚至创建docker容器)。有没有什么方法可以避免将向量文件与存储库一起保留，而是重复使用它来嵌入新句子？

浏览 13提问于2019-03-06得票数 1

回答已采纳

1回答

无需下载即可从Google云存储加载模型

、

有没有一种方法可以在不下载模型副本的情况下从Google云存储中提供模型？比如直接流式传输数据？我正在尝试加载一个托管在Google云存储上的fasttext模型。bucket.blob(language_model_filename)language_model = FastText.load_model

浏览 16提问于2019-03-15得票数 0

1回答

尝试使用gensim's fasttext，测试来自gensim的示例代码，并将论证替换为corpus_iterable https://radimrehurek.com/gensim/models/fasttext.html gensim_version == 4.0.1 from gensim.models import FastTextmodel.train(corpus_iterable

浏览 44提问于2021-09-02得票数 0

回答已采纳

1回答

对未标记的字段使用同义词标记筛选器

、、、

假设我想使用edge-ngram技术进行自动补全(补全提示器对我来说不是一个好的选择)。我试着这样做： "analysis": { "ngram_prefix": { "min_gram": 1, "m

浏览 0提问于2014-12-19得票数 0

1回答

Gensim FastText计算训练损失

、、、、

我正在使用训练一个fastText模型。但是，我似乎找不到一种方法来计算迭代的损失以用于日志记录。如果我看一下，它有get_latest_training_loss方法，允许您打印训练损失。有没有其他选择，或者根本不可能？

浏览 0提问于2018-06-01得票数 8

1回答

用更快的东西替换Python3.x循环

、、、、

python3.x做了一个功能： vector = [] for ngramin var: vector.append(docs.count(ngram))'name', 'are', 'is'] doc = '

浏览 0提问于2018-12-05得票数 0

1回答

pandas导出不带字符串截断的字符串序列

、、

我有一个简单的代码，可以合并两个字符串序列并将结果写入一个文件 return row['labels'] + ' ' + row['text'] with open("fasttext_

浏览 3提问于2017-05-13得票数 1

2回答

使用tfidf作为功能

、、、、

一种方法是使用tfidf提取每个文档的重要单词，然后生成如下所示的csv文件： document, ngram1, ngram2, ngram3, ..., label 1, 0.0, 0.0, 0.0另一种方法是合并每个组中的所有文档并提取ngram。在此之后，我可以计算每个ngram在每个文档中的出现次数，但我不确定这是最好的方法。请提供您建议的解决方案。

浏览 30提问于2021-02-08得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用tf-以色列国防军和FastText载体

如何用Gensim加载FastText预培训模型？

将快速文本模型转换为tensorflow集线器时出错

设置fastText的最大碳数n克长度

pip一个接一个地从需求中安装2个包

创世纪most_similar只找到同义词(不是反义词)

在python中根据电子邮件主题和正文进行多分类

为什么Gensim拒绝加载由Fasttext* (Facebook)库构建的监督模型dict？*

如何将gensim创建的快速文本模型导出到二进制文件中？

Gensim Fasttext预培训模型是如何获得词汇外单词的向量的？

在Python中高效地按ID计数ngram

在存储库中不保留fastText矢量文件的情况下创建word嵌入

无需下载即可从Google云存储加载模型

Gensim快速文本获取单词或单词索引

对未标记的字段使用同义词标记筛选器

Gensim FastText计算训练损失

用更快的东西替换Python3.x循环

pandas导出不带字符串截断的字符串序列

使用tfidf作为功能

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐