Facebook快速文本bin模型UnicodeDecodeError

文章/答案/技术大牛

发布

3回答

、、、、

我从facebook (https://fasttext.cc/docs/en/crawl-vectors.html)下载了预先训练好的词向量文件(.bin)，但是当我尝试使用这个模型时，它碰巧出错了from gensim.models import FastText <e

浏览 41提问于2019-03-06得票数 0

回答已采纳

1回答

如何用gensim加载中文快速文本模型？

、

在尝试用gensim加载chines快速文本模型(cc.zh.300.bin)时，我遇到了以下错误 UnicodeDecodeError:'utf-8‘编解码器无法解码0位置的字节0 0xba :无效开始字节

浏览 6提问于2020-03-20得票数 0

回答已采纳

6回答

如何用Gensim加载FastText预培训模型？

、

我试着从这里加载fastText预培训模型，快速文本模型。nltk_check.py", line 28, in <module> return unicode(text, encoding, errors=

浏览 0提问于2017-06-30得票数 35

回答已采纳

1回答

基于gensim的快速文本库中预训练词嵌入的有效存储

、、、、

我想用gensim从快速文本库加载经过预先训练的多语种单词嵌入；在这里，链接到嵌入： cc.de.300.vec (4.4 GB) cc.de.300.bin (7 GB)gensim.models.fasttext.load_facebook_model(path, encoding='utf-8') - _Loadthe input-hidden weight matrix

浏览 7提问于2019-12-11得票数 3

回答已采纳

1回答

如何将gensim创建的快速文本模型导出到二进制文件中？

、、、

我试图将gensim创建的快速文本模型导出到二进制文件中。但是医生们还不清楚如何做到这一点。我到目前为止所做的事：但这似乎不是最好的解决办法。之后，当我想使用以下方法加载模型时：我进入了一个无限循环。

浏览 2提问于2019-11-15得票数 4

回答已采纳

1回答

荷兰预训练模型在gensim中不起作用

、

当尝试在gensim中上传快速文本模型(cc.nl.300.bin)时，我得到以下错误： !gunzip cc.nl.300.bin.gzmodel.build_vocab该数据集的格式是正确的，因为我已经使用它来构建和训练其他(未预先训练的) Word2Vec和FastText模型。我在这个博客上看到其他人也有同样的错误，但

浏览 17提问于2021-06-19得票数 0

回答已采纳

2回答

从s3加载快速文本二进制模型失败

、、、、

我在s3 (未压缩的)上托管了一个预先训练过的快速文本模型，并且我试图将它加载到lambda函数中。我使用gensim.models.fasttext模块加载模型： model = load_facebook_vectors(obj["path"]) obj["path"]是s3路径，

浏览 12提问于2022-01-27得票数 0

回答已采纳

2回答

如何从bin文件中获取vec文件？

、、、

我正在尝试将我的模型与fasttext unsupervised.py 对齐。我用fasttext训练我的模型，我得到了二进制文件model.bin。当我使用unsupervised.py时，我会得到怎么啦？我必须有一个.vec文件吗？

浏览 2提问于2021-05-24得票数 0

回答已采纳

1回答

GCS桶中GCP数据流中错误加载的快速文本模型

、、、、

我无法在数据流中加载快速文本模型。我将模型存储在一个桶中，路径是以下是我打电话的方式：我得到以下错误： ValueError: gs:///Model1.bin不能用于

浏览 4提问于2021-08-12得票数 0

1回答

如何将预先训练好的fastText向量转换成gensim模型

、、、

如何将预先训练好的fastText向量转换成gensim模型？我需要predict_output_word方法。Word2Vec(sentences=model_wiki) TypeError跟踪(最近一次调用)在->1 model3 = Word2Vec(sentences=model_wiki) #从语料库中训练模型

浏览 0提问于2018-12-21得票数 2

2回答

加载wiki预训练数据时的快速文本错误

、、

我使用gensim包以这样的方式加载模型：model = FastText.load_fasttext_format('wiki-news-300d-1M-subword.bin').bin文件是

浏览 0提问于2019-01-28得票数 1

1回答

缩小快速文本bin文件的大小

、

目前fastText wiki.en.bin的bin文件大约为8 8GB。有没有大约一半大小的版本？bin文件由模型和从大型维基语料库生成的预训练向量组成。有没有更小的en。或者，为了获得一个较小的bin文件用于快速文本，我是否应该使用较小的并行语料库来训练我自己的一组快速文本向量？

浏览 6提问于2018-07-19得票数 1

1回答

Facebook快速文本桶模型预处理

、、、、

我下载了一个.bin FastText模型，并按如下方式加载：如何对cc.en.300.bin模型进行预处理和规范化。

浏览 5提问于2022-09-05得票数 0

3回答

使用Python保存从Facebook收集的评论的最佳方法是什么？

、、、

我正在使用Python和Facebook从一些Facebook页面收集所有评论。但是，如果我想读取这个保存的文件，我会得到以下错误： UnicodeDecodeError: 'utf-8' codec can't decode顺便说一句，我在处理德文文本。

浏览 13提问于2016-07-11得票数 1

回答已采纳

1回答

培训具有社会生成内容的快速文本模型

、、、

我目前正在学习使用Facebook FastText进行文本分类。我从Kaggle中找到了一些数据，其中包含��或twitter和hashtag等字符。我试着搜索网页，但是在训练一个模型之前，你确实需要清理/预处理你的文本，这一点并没有得到澄清。问题是，在培训

浏览 1提问于2020-03-28得票数 1

回答已采纳

3回答

在python中处理unicode字符串

、、

我使用的是基于英语维基百科的快速文本预培训模型。正如预期的那样..。 UnicodeDecodeError: 'utf-8' codec can't decode byte 0x80 in position 15: invalid start

浏览 0提问于2019-04-13得票数 1

回答已采纳

1回答

快速文本模型检测挪威文本为丹麦语

、

我正在使用快速文本(v=0.9.1)来检测文本的语言(参见)。!curl "https://dl.fbaipublicfiles.com/fasttext/supervised-models/lid.176.bin" > lid.bin import fastTextlanguage_detector=fastText.load_model(

浏览 12提问于2020-11-10得票数 1

1回答

无法加载经过预先训练的韩语word2vec

、

/ko.bin', binary=False)加载模型。但有一个错误是：我已经尝试了许多选项，包括堆栈溢出和Github，但仍然不能很好地工作。

浏览 7提问于2021-12-23得票数 1

回答已采纳

2回答

使用预训练词向量进行文本分类的FastText

、、、

我正在处理一个文本分类问题，也就是说，给定一些文本，我需要给它分配特定的标签。我试过使用Facebook的快速文本库，它有两个我感兴趣的实用程序：B)文本分类实用程序然而，这些似乎是完全独立的工具，因为我找不到任何将这两个实用程序合并在一起的教程我想要的是能够通过利用单词向量的预训练模型来对一些文本进行分类。有没有办法做到这一点？

浏览 6提问于2017-12-07得票数 13

回答已采纳

2回答

Fasttext .vec和.bin文件的区别

、、、、

我最近下载了快速文本预培训模型的英语。我有两个文件：我不知道这两个文件有什么区别？

浏览 1提问于2017-11-05得票数 25

回答已采纳

点击加载更多