使用预训练的Bert，Elmo获得两个单词之间的相似度分数

文章/答案/技术大牛

发布

1回答

、、、、

我正在尝试使用预训练的维基模型来比较Glove，Fasttext，Bert，Elmo在两个单词之间的相似度。Glove和Fasttext有预训练的模型，可以很容易地与python中的gensim word2vec一起使用。Elmo和Bert有这样的<

浏览 74提问于2019-09-15得票数 1

1回答

如何在预训练的ELMO嵌入中获得相似的单词？

、、、、

如何在预训练的ELMO嵌入中获得给定单词的相似单词？例如:在Glove中，我们使用glove_model.most_similar()来查找最相似的单词及其对任何给定单词的嵌入。同样，我们在ELMO有什么东西吗？

浏览 13提问于2019-04-17得票数 4

1回答

我想使用最先进的LM T5来获得句子嵌入向量。我发现了这个仓库https://github.com/UKPLab/sentence-transformers，据我所知，在BERT中，我应该将第一个令牌作为CLS令牌，它将是句子嵌入。在这个存储库中，我在T5模型上看到了相同的行为： cls_tokens = output_tokens[:, 0, :] # CLS token is first token 这种行为正确吗？我从T5获取了编码器，并用它对两个<

浏览 59提问于2020-10-29得票数 2

回答已采纳

1回答

句子转换器如何预测新实例

、、、、

它展示了如何对我们的自定义数据进行培训。但我不知道该怎么预测。如果有两个新句子，如1)这是第三个例子，2)这是第三个例子。我怎么能预测到这些句子有多相似呢？train_examples, shuffle=True, batch_size=16)保存了与旧代码相比的model["This is an example sentence", "Each sentence is converted&quo

浏览 1提问于2022-01-04得票数 2

4回答

是否可以使用Google BERT来计算两个文本文档之间的相似度？

、、、、

是否可以使用Google BERT来计算两个文本文档之间的相似度？据我所知，BERT的输入应该是有限大小的句子。一些作品使用BERT来计算句子的相似度，例如：是否有BERT done的实现，以便将其用于大型文档而不是句子作为输入(具有数千个单词的文档)

浏览 1提问于2019-09-11得票数 12

1回答

当Word2Vec使用点积相似性进行训练时，为什么还要使用余弦相似性

、、、、

根据我在stackoverflow上找到的几篇文章(例如这个Why does word2Vec use cosine similarity?)，在我们训练了一个word2vec ( CBOW或Skip-gram)模型之后，计算两个词向量之间的余弦相似度是一种常见的做法。然而，这对我来说似乎有点奇怪，因为该模型实际上是用点积作为相似度分数进行训练的。这一点的

浏览 132提问于2019-01-29得票数 7

0回答

如何计算两个n-gram之间的语义相似度？

、、

我正在尝试计算两个二元文法之间的语义相似度，我需要使用fasttext的预训练词向量来完成这项任务。对于ex：它们是两个元组，我需要通过任何必要的方法来计算这两个元组之间的相似性。我希望有一个分数<

浏览 9提问于2017-12-03得票数 1

1回答

通过Huggingface转换器更新BERT模型

、、、、

我正在尝试使用内部语料库更新预训练的BERT模型。我看过Huggingface的transformer文档，你会发现我有点困惑，below.My的目标是使用余弦距离计算句子之间的简单相似度，但我需要为我的特定用例更新预先训练的模型。我试图“重新训练”或更新模型，我假设special_token_1和specia

浏览 53提问于2019-10-30得票数 9

1回答

关于word2vec most_similar()函数

、、

我使用如下的most_similar()方法来获取与给定单词相似的所有单词：AFAIK，它的作用是计算给定单词和字典中所有其他单词之间的余弦相似度。当我检查单词和分数时，我可以看到列表中有负分数<

浏览 2提问于2016-01-19得票数 5

3回答

如何使用BERT中的嵌入比较句子相似度

、、、、

我正在使用HuggingFace Transformers包访问预先训练好的模型。因为我的用例需要英语和阿拉伯语的功能，所以我使用预训练模型。我需要能够使用诸如余弦相似性之类的东西来比较句子的相似性。要使用它，我首先需要获得每个句子的嵌入向量，然后才能计算余弦相似度。首先，

浏览 2提问于2020-03-03得票数 21

回答已采纳

1回答

具有大规模毁灭性武器距离的BERT语句相似度

、、

我尝试用BERT和word mover距离(WMD)来计算这两个句子之间的相似度。我无法在蟒蛇中找到正确的大规模杀伤性武器公式。也尝试了WMD库，但它使用word2vec模型进行嵌入。请帮助解决以下问题，以获得相似的分数使用大规模毁灭性武器。sentence_obama.lower().split() sentence_president = sentence_president.

浏览 9提问于2022-06-05得票数 1

1回答

基于NLTK预训练词网的词语相似度研究

、、、

我想用相似度分数来比较两个单词。我用的是nltk.corpus的wordnet。) #wordnet.lemmas(i2)[0]print(w1.wup_similarity(w2)) 我得到了相似度分数，但是，它只适用于名词之间，但是，我需要的是将名词与形

浏览 0提问于2020-07-25得票数 0

1回答

如何聚类关键字或获得关键字相似度时，我有他们的向量

、、、、

我使用Pickle方法(通过Bert- as -Service和Google的预训练模型)将python字典存储为Vector文件，如下所示： (关键)短语：(值)Phrase_Vector_from_Bert但我不知道如何像Gensim Word2Vec那样从Bert- as -Service模型中获得短语与向量文件的相似度，因为后者配备了.similarity方法。你能给我一个建议来获取短语&#

浏览 0提问于2019-09-26得票数 0

1回答

BERT词嵌入的大小/范数的意义是什么？

、

我们通常将词嵌入之间的相似度与余弦相似度进行比较，但这只考虑了向量之间的角度，而不是范数。对于word2vec，随着单词在更多的上下文中使用，向量的范数会减少。因此，停用词接近于0，并且非常独特，高意义的词往往是大的向量。BERT是上下文敏感的，所以这个解释并不完全涵盖BERT嵌入。有没有人知

浏览 1提问于2019-07-23得票数 4

1回答

为什么BERT模型必须保持10%的掩码标记不变？

、、

我正在读BERT模型论文。在预训练BERT模型的掩蔽语言模型任务中，本文表示模型将随机选择15%的令牌。在选择的标记( Ti )中，80%将被替换为掩码标记，10%的Ti保持不变，10%的Ti将替换为另一个单词。我认为模型只需要替换为掩码或其他单词就足够了。为什么模型必须随机选择一个单词并保持不变？预训练过程是只预测掩码令牌，还是预测15%<em

浏览 151提问于2020-09-23得票数 2

回答已采纳

3回答

查找单词之间的余弦相似度

、、、、

有没有可能找到两个词之间的相似性？cosine_similarity('kamra', 'cameras')ValueError: could not convert string to float: 'kamra'('kamra').toarray() 我的目标是检查与字典中的两个值(列表)<

浏览 4提问于2020-11-11得票数 0

1回答

域特定词相似度

、、、

有谁知道如何使用一个精确的工具或方法来计算单词嵌入或发现特定领域的单词之间的相似性呢？我正在从事一个NLP项目，该项目涉及计算技术术语之间的余弦相似度，比如“地址”和“套接字”，但是像word2vec这样经过预先训练的模型并没有给出有用的嵌入或精确的余弦相似性，因为它们并不是特定于技术术语<e

浏览 6提问于2022-02-20得票数 0

回答已采纳

1回答

如何将一组单词分类为给定的标签之一

、

我得到了这样的词集: Set1 ={云天人，植物闪光摄影，快乐短裤，草休闲娱乐} Set2 ={植物绿色，自然景观，自然环境，树枝，树木，人在自然界，树形树木，落叶}我想把这些词分类成一个标签。Set1应该贴上精力充沛的标签，Set2应该贴上平静的标签。

浏览 0提问于2021-05-22得票数 2

回答已采纳

1回答

将段落拆分成有意义的子段落

、、

通常，一个段落包含多个小节，每个小节都有一定的含义。在自然语言处理中，如何将段落拆分成有意义的小节，或者换句话说，我想要检测小节之间的边界

浏览 3提问于2020-06-03得票数 0

1回答

使用非英语文本的预训练模型的BERT句子嵌入

、、、、

我正在尝试应用BERT句子嵌入来从瑞典语文本字符串语料库中查找给定瑞典语文本片段的相似句子。来自sentence_transformers (SBERT)的句子BERT似乎是理想的选择。他们有各种预先训练的模型，并给出了很好的例子：()import torch embedder我想知道是否有可能并且可能更准确地应

浏览 8提问于2020-10-29得票数 0

点击加载更多