相似度计算函数_余弦相似度:函数不能计算矩阵_句子相似度计算 - 腾讯云开发者社区

、、

我正在使用tf.losses.cosine_distance(Y, outputs, axis=2, reduction=tf.losses.Reduction.MEAN)来衡量我的标签和预测之间的差异。张量形状为[batch_size, sequence_length, embedding]。在我的例子中，预测的形状是[16311, 20, 100]。我的结果如下。 ----------------------epoch1---------------------- train 1 loss 1.1429076 ----------------------epoch2----------

浏览 0提问于2019-05-29得票数 1

1回答

关于word2vec most_similar()函数

、、

我使用如下的most_similar()方法来获取与给定单词相似的所有单词： word,score= model.most_similar('apple',topn=sizeofdict) AFAIK，它的作用是计算给定单词和字典中所有其他单词之间的余弦相似度。当我检查单词和分数时，我可以看到列表中有负分数的单词。这是什么意思？它们是与给定单词具有相反含义的单词吗？另外，如果它使用余弦相似度，它是如何得到负值的？对于两个文档，余弦相似度在0-1之间变化。

浏览 2提问于2016-01-19得票数 5

1回答

如何将图形数据结构保存到文件中？例如，软件的函数调用图

、、、

我正在研究如何表示软件的函数调用图，并将数据结构保存到文件中。我知道在内存中，图可以是邻接表或正交表的形式。我的问题是如何将数据结构保存到文件中，这样以后它就可以重新加载到内存中进行进一步的操作。它可以用json表示，也可以用Neo4j等图形数据库表示吗？更重要的是，如果转储到Neo4j，是否可以计算函数调用相似度？

浏览 29提问于2019-04-13得票数 0

1回答

如何在不返回太多行的情况下，使用PostgreSQL全文搜索返回部分短语匹配？

、、、

我正在使用 gem在PostgreSQL中执行全文搜索，它工作得很好。但是，有些搜索在应该返回的时候没有返回任何视频结果。例如，搜索“物质状态”将返回10个结果，因为视频有一个名为“物质状态”的标签。但是“物质的三种状态”返回的结果为零。类似地，“放射性碳测年”返回1个视频，而“碳测年”不返回任何内容。下面是我如何设置我的模型： # app/models/video.rb class Video < ApplicationRecord include PgSearch::Model ... pg_search_scope(:user_search, { aga

浏览 2提问于2020-08-14得票数 1

1回答

句子转换器如何预测新实例

、、、、

我正在探索句子转换器，并偶然发现了这个。它展示了如何对我们的自定义数据进行培训。但我不知道该怎么预测。如果有两个新句子，如1)这是第三个例子，2)这是第三个例子。我怎么能预测到这些句子有多相似呢？ from sentence_transformers import SentenceTransformer, InputExample, losses from torch.utils.data import DataLoader #Define the model. Either from scratch of by loading a pre-trained model model = Sen

浏览 1提问于2022-01-04得票数 2

1回答

同义词的余弦相似度

、、、

我有一些单词是我想要考虑的与原始单词相似的同义词。例如，在本例中，单词restaurant和bar被视为同义词。为了在这种情况下应用余弦相似度，我决定在两个向量中保留相同的单词，但是如果一个单词被认为是同义词，那么我会在计数器中减去一个“惩罚”。在这个场景中，我必须将原始的v1='cafe‘与v2='restaurant’进行比较。然后，我有以下内容： v1=Counter({'cafe': 1}) v2=Counter({'cafe': 0.65}) #0.65 because word restaurant is synonym 然而，如果

浏览 0提问于2020-07-10得票数 1

1回答

Mahout中基于项目的推荐器的性能问题

、、

我正在尝试使用mahout中的基于项目的推荐。它包含250万个用户，项目交互，没有偏好值。大约有100个项目，100k users.It需要大约10秒才能推荐。而对于相同的数据，当我使用基于用户的推荐时，它只需要不到一秒钟的时间。 ItemSimilarity sim = new TanimotoCoefficientSimilarity(dm); CandidateItemsStrategy cis = new SamplingCandidateItemsStrategy(10,10,10,dm.getNumUsers(),dm.getNumItems()); MostSimilarIte

浏览 1提问于2014-02-06得票数 0

1回答

Jaccard分析相似度

、、

我正试着从R做一个Jaccard分析。但是，在处理之后，我的结果列是NULL。我从很多方面尝试过解决方案，但问题仍然存在。有谁能帮帮我吗？ #######################PROCESSING JACCARD ANAYLSIS################### Jaccard = function (x, y) { M.11 = sum(x == 1 & y == 1) M.10 = sum(x == 1 & y == 0) M.01 = sum(x == 0 & y == 1) return (M.11 / (M.11 + M.10 + M.

浏览 15提问于2020-04-17得票数 0

1回答

向现有余弦相似度矩阵添加新元素

、、

我用sklearn.metrics.pairwise中的cosine_similarity计算了一个余弦相似度矩阵。 Matrix: 2414514 413915 419480 473104 534621 609406 654913 654914 \ 2414514 1.000000 0.0 0.0 0.0 0.0 0.0 0.755929 0.755929 413915 0.000000 1.0 0.0 0.0 0.0 1.0 0.000000 0.00000

浏览 9提问于2019-04-02得票数 0

1回答

对问答系统NLP的几点建议

、、、

我正在尝试建立一个问题回答系统，其中我有一组预定义的问题和他们的答案。对于来自用户的任何给定问题，我必须查找类似的问题是否已经存在于预定义的问题中，并发送答案。如果它不存在，它必须回复一个通用响应。任何关于如何使用NLP实现这一点的想法都会非常有帮助。提前感谢！！

浏览 2提问于2020-03-15得票数 0

1回答

mahout推荐自定义项目相似度

、、

我想根据用户的技能向他们推荐工作，使用mahout.So是否有任何方法可以定义工作相似性逻辑。我找到了ItemSimilarity接口，但在自定义实现后无法使用它。

浏览 0提问于2014-07-30得票数 2

1回答

潜在语义分析如何处理语义

、

我已经通过了LSA方法。有人说，LSA可以用于语义分析。但我不明白它在LSA是如何运作的。有人能告诉我LSA是如何处理语义的吗。

浏览 5提问于2014-08-15得票数 1

回答已采纳

1回答

将字典项加载到spaCy NLP中

、

我正在努力寻找一种有效的方法来将python字典中的所有条目加载到spaCy NLP中。我的目标是创建一个相似性函数，它可以从dict1中获取一个元素，并从dict2中返回最相似的元素。因为我是同时使用python和spacy的新手，所以我只想到循环遍历dict1中的每一项，然后对dict2的每个元素执行dict1_item = nlp(item)，然后执行dict2_item = nlp(item2)，最后执行similarity(dict1_item[dict2_item]) 我还没有完全实现这种方法，因为大量的循环给了我一个暗示，它将是令人难以置信的缓慢。在数据方面，我比较了大约30

浏览 2提问于2019-04-23得票数 0

4回答

python搜索技术:单词相似度

、、、

我想得到两个单词的相似度百分比，例如) abcd versus zzabcdzz == 50% similarity 不需要非常准确。有没有办法做到这一点？我正在使用python，但请随意重新注释其他语言。

浏览 1提问于2011-02-12得票数 3

回答已采纳

1回答

当我使用余弦相似度时，为什么我得到的邓恩指数是负值？

、、、

我使用k-means对归一化数据进行聚类。我使用了不同的相似度矩阵，如欧几里得、曼哈顿和余弦，当我使用余弦相似度时，Dunn指数为负值。我读到过邓恩指数的取值范围从0到无穷大。使用余弦相似度计算Dunn指数是正确的吗？我用过this implementation of Dunn Index。

浏览 94提问于2019-06-12得票数 1

回答已采纳

1回答

理解两个TF-IDF向量相似的原因

、、

我想要一些关于理解TF-IDF向量结果的方法的反馈，以及可能的替代方法。现在，我有两个文本语料库。目标是找到每个语料库中的哪些文档最相似。当我找到一个有趣的匹配项时，我想知道为什么，所以我实现了一个名为why_match()的简单函数，但我想帮助了解它是否是一种有效的方法。它是这样工作的： def why_match(doc_vector_a, doc_vector_b, sklearn_tfidfvectorizer): distance = abs(doc_vector_a - doc_vector_b) nearest_words = np.array((dista

浏览 2提问于2018-10-27得票数 0

1回答

比较Orange中的文件(文本源)

、

比较橙色文本文件的最佳方法是什么？如何找到两个文本之间的区别或相似之处，以及主节点之间的关系？

浏览 0提问于2019-05-24得票数 2

1回答

较小数据集相对于较大数据集的百分比

、

我有两个数据集，它们是多维实值向量的列表。一个数据集(称为A=\{x_1, x_2, x_3, ..., x_n\} )具有较大的大小，另一个数据集(称为B=\{x_1, x_2, x_3, ..., x_m\})。另外，另一个则要小得多，并且是更大的(B \subset A)的子集。一个较小的B，来自于一些抽样过程，我想要做的是计算，小的(从抽样中得到)的哪个部分在较大的范围内。另外，由于这些是实值向量，所以我不能逐个直接比较它们，所以可以使用聚类算法。而且，一个数据集的大小比另一个|A| >> |B|大。

浏览 0提问于2021-01-12得票数 2

1回答

使用笛卡尔的jaccard相似性

、、、、

我有一段代码： StructType schema = new StructType( new StructField[] { DataTypes.createStructField("file_path", DataTypes.StringType, false), DataTypes.createStructField("file_content", DataTypes.createArrayType(DataTyp

浏览 16提问于2020-07-06得票数 0

1回答

将ID映射到名称并删除重复的算法开发

、、

我在CSV文件中有一个列，该列的名称使得该列中的每个单元格可能与拼写错误的单元格相同。例如，“耐克”可能与“耐克公司”相同。可能和“耐克公司”一样。我的当前脚本我已经用Python编写了一个程序，如果该值在列中作为前缀或后缀出现2次以上，它将从每个单元格中删除前缀和后缀。然后，在本专栏按字母顺序排序后，我将一行与下一行进行比较。我当前的问题在现实中，仍然有许多单元格与其他单元格重复，但它们并不是这样表示的。这些例子是: a)不完全匹配(不只是大写) b)，不通过将其词干(没有前缀和后缀)与其字母邻居进行比较而捕捉到。我现在的问题 ( 1)是否有人有经验将ID映射到来自世界各地的名称(

浏览 3提问于2012-09-14得票数 0

2回答

mahout推荐器

、

提到了以下内容： // Construct the list of pre-computed correlations Collection <GenericItemSimilarity.ItemItemSimilarity> correlations = ...; 我不确定上面这行中的实际构造是如何完成的。有没有人能举个例子？ ItemSimilarity itemSimilarity = new GenericItemSimilarity(correlations);

浏览 0提问于2011-11-27得票数 3

1回答

基于关键字数量的文档与其他文档相关的概率

、

我有2个文档X和Y。如果用户搜索单词"Computer“，并且我想显示基于关键字"Computer”的最相关的文档。我的算法根据关键词在文档中出现的次数来选择最相关的文档。唯一的问题是文档X有10个单词，"Computer“出现两次，而文档Y有1000个单词，"Computer”出现100次。从文档中的字数来看，说文档Y比文档X更相关是不正确的。如何对此进行规范化，以获得最准确的相关文档。

浏览 8提问于2016-01-09得票数 0

3回答

从字符串列表中，如何获得python中最奇怪的单词/字符串？

我有一个字符串列表： ['twas', 'brillig', 'and', 'the', 'slithy', 'toves', 'did', 'gyre', 'and', 'gimble', 'in', 'the', 'wabe', 'all', 'mimsy', 'were', 'the', 'borogoves&#

浏览 0提问于2012-04-12得票数 1

1回答

注意力网络是如何工作的？

、、、

最近我在读“注意力就是你所需要的一切”这篇论文，通过它，我发现了一个关于理解注意力网络的问题，如果我忽略了它背后的数学原理。有没有人能举个例子让我理解注意力网络？

浏览 1提问于2019-12-05得票数 4

1回答

从数据库中删除相似数据

、、

我想从我的数据库中删除类似的数据。现在我可以从我的数据库中删除重复的数据并保留一个。 $sql = "UPDATE `clf_ads` SET `enabled`= '0' WHERE adid NOT IN (SELECT * FROM (SELECT MAX(adid) FROM clf_ads GROUP BY adtitle) x)"; if ($conn->query($sql) === TRUE) { echo "Record deleted successfully"; } else { echo "Error de

浏览 13提问于2018-12-11得票数 0

1回答

根据相似性度量在用户定义类型的两个向量(不同长度)中查找匹配的元素对

我有两个std::vector< Point >，PV1和PV2，它们可以包含不同数量的元素和两个点A和B之间的相似性度量函数双simMetric(点a、点b) 我正在寻找计算匹配对集合的最有效方法，其中匹配被定义为在PV1中存在一个点P1，在PV2中存在一个点P2，其相似性度量是PV1和PV2中所有对之间的最小值，并且低于某个阈值。

浏览 0提问于2016-06-04得票数 2

1回答

为什么用gensim计算相似度需要字典的大小？

、、

为了使用gensim.similarities.docsim.Similarity类计算单词之间的相似度，需要提供语料库和字典的大小。在我的例子中，语料库是使用word2vec模型计算的词向量。我想知道为什么gensim需要这么大的字典？另外，如果这里需要用于创建word2vec模型的字典的大小，或者语料库的字典的大小，我想要计算其相似度。

浏览 0提问于2020-06-23得票数 0

2回答

可以仅使用非空值在行之间使用余弦相似性吗？

、、

我想要找到一个查询行和另外10个行之间的余弦相似度(或者欧几里得距离，如果更容易)。这些行都是nan值，因此如果列是nan，则忽略它们。例如，查询： A B C D E F 3 2 NaN 5 NaN 4 df = A B C D E F 2 1 3 NaN 4 5 1 NaN 2 4 NaN 3 . . . . . . . . . . . . 因此，我只想得到查询的每个非空列与df列中的行之间的余弦相似性。因此，对于df中的第0行，B和F在查询和df中都是非空的。然后，

浏览 0提问于2019-02-11得票数 5

回答已采纳

1回答

项目间的余弦相似性(购买数据)与标准化

、、、

我使用表示产品用户购买行为的IndexedRowMatrix，为了构建产品推荐，我使用余弦相似度来计算产品之间的相似性。PySpark提供了一个名为columnSimilarities()的函数。我的问题是，在使用columnSimilarities()之前，是否需要规范每个产品的向量？我读过关于归一化和余弦相似的文章，并且理解余弦相似已经对向量进行了归一化，就好像我们把向量规范化了一样，余弦相似性就是这两个向量的点乘积。参考文献另外，余弦相似度与点积的距离度量问题中的一个答案表明，Sometimes it is desirable to ignore the magnitude, hen

浏览 0提问于2018-11-19得票数 3

2回答

两个矩阵之间的余弦相似度计算

、、

我有一个计算两个矩阵之间余弦相似度的代码： def cos_cdist_1(matrix, vector): v = vector.reshape(1, -1) return sp.distance.cdist(matrix, v, 'cosine').reshape(-1) def cos_cdist_2(matrix1, matrix2): return sp.distance.cdist(matrix1, matrix2, 'cosine').reshape(-1) list1 = [[1,1,1],[1,2,1]] list

浏览 1提问于2015-05-10得票数 5

3回答

天真的实现余弦相似度有什么问题？

、、

在一篇中，我读到下面的余弦相似性的“天真的实现”永远不应该在生产中使用，博客文章没有解释为什么，我真的很好奇，有人能给出一个解释吗？ import numpy as np def cos_sim(a, b): """Takes 2 vectors a, b and returns the cosine similarity according to the definition of the dot product """ dot_product = np.dot(a, b) norm_a = np.l

浏览 1提问于2018-12-14得票数 2

2回答

如何使用LSA计算句子之间的相似度？

我已经理解了当计算单词之间的相似度时LSA是如何工作的。我正在使用lsa.colorado.edu网站上的LSA，但我找不到一个来源，即句子或多个单词之间的相似度是如何计算的。这仅仅是通过平均所有成对的相似性来完成的吗？

浏览 1提问于2012-12-17得票数 1

1回答

词与字典的比较与赋值

、

我用刮刮爬行了几个欺凌论坛，并将结果作为字典使用。我现在要做的是提取一个句子的关键字，例如He harassed me in the chat，这将给出关键字Harassed和chat，并将这些关键字与我的单词字典进行比较，并为它的相关性分配一个值(在这种情况下，这显然会提供接近1.0的高值，因为它与欺凌非常相关)。我已经把关键词提取下来了，所以现在我只需要知道如何进行比较。我看过使用pandas、scikit和nltk的情况，但它们似乎对多个字段的字典最有效，而我只有一袋单词。有什么NLP库可以帮我吗？如果不这样做，最好的办法是什么？

浏览 0提问于2018-07-15得票数 1

回答已采纳

2回答

对模型中的多个字段执行全文搜索(Django 2.1)

我想对模型中的两个字段执行全文搜索。下面是我当前的代码： if 'keyword' in request.GET: search_term = request.GET['keyword'] vector = SearchVector('Title', weight='A') + SearchVector('Content', weight='B') articles = articles.annotate(similarity=TrigramSimilarity(vecto

浏览 29提问于2019-01-22得票数 1

回答已采纳

1回答

在IGraph中生成按端点的Jaccard索引排序的边的列表

、、、、

我需要一些帮助来弄清楚如何在igraph的C接口中根据端点的Jaccard索引对边进行排序。我已经能够计算所有对的Jaccard索引，但我只需要相邻顶点的Jaccard索引列表。在我的例子中，我使用的是Zachary空手道俱乐部网络，它有34顶点和78边。 igraph_t graph; igraph_famous(&graph,"Zachary"); // load a graph igraph_write_graph_edgelist(&graph,stderr); // print it to stderr igraph_matrix_t res; /

浏览 1提问于2015-07-21得票数 0

1回答

Rasa NLU实体提取使用的是什么模型？它是LSTM还是一个简单的神经网络？

、、、

在词嵌入之后，RASA NLU使用哪种模型来提取实体和意图？

浏览 8提问于2019-01-03得票数 0

1回答

如何比较Python中两个文档的主题分布之间的主题相似性？

、、

我用Gensim在语料库上训练了一个LDA模型。现在我已经有了每个文档的主题分布，如何比较两个文档在主题中的相似程度？我想要一个简要的措施。例如，以下是两个文档的主题分布。总共有75个主题。为了简洁起见，我只展示了概率最大的前10个主题(因此主题不太合适)。(40，0.5523168)表示主题#40对于DOC #1的概率为0.5523168。我应该计算两个向量之间的欧几里德距离还是余弦距离？使用这个概括度量，我是否可以说，例如，DOC 1比DOC2更类似于DOC3，或者DOC1和DOC 2在局部上比DOC 3和DOC 4更相似？谢谢! DOC #1: [(40, 0.5523168), (60

浏览 2提问于2019-03-22得票数 4

回答已采纳

1回答

匹配R中2列中的公司名称

我从SEC Edgar ()下载了一份上市公司名单。我正在尝试查找不同列表中的公司之间的匹配，这些公司在大小写和标点符号方面可能会有所不同。对于在两列之间匹配公司名称有什么建议吗？下面是一个例子： > df.a Company "Flowers David" "Danone Inc." > df.b Company "1 800 FLOWERS COM INC" "FLOWERS DAVID J A" "FLOWERS FOODS INC" 我正在尝试以一种有意义的方式在两者之间找到匹配

浏览 1提问于2014-06-27得票数 0

1回答

哪种类型的自动编码器可以实现文本相似性？

、、

我之前没有任何在神经网络方面的工作经验，所以任何帮助都将不胜感激。我正在解决以下任务:我想找出句子对之间的相似度得分。我的想法是为句子中的每个单词生成嵌入，并将向量提供给编码器，编码器将学习将这些多个输入聚合为一个较低的表示序列向量。并使用该序列向量之间的余弦相似度来找出相似度得分。我的问题是，对于哪种类型的自动编码器或神经网络架构更适合我的情况，您有什么建议吗？

浏览 3提问于2019-11-25得票数 0

1回答

如何利用openCv获取图像中的相似度？

、、

我使用openCV库来获取图像中的相似度。我使用了返回双值的compareHist函数openCv库，在这个函数中传递了不同的方法名(int值)，并得到了不同的结果--对于每个方法.Now，如何对这些双值进行决策？ Mat src_base, hsv_base; Mat src_test1, hsv_test1; // Mat src_test2, hsv_test2; Mat hsv_half_down; String baseImgPath = [baseImagePath UTF8String]; String firstCmpImgPath = [firstCmpImagePat

浏览 2提问于2014-10-10得票数 1

2回答

一种在满足约束的同时最小化距离的聚类算法

、

我有90个人的数据。一个人的数据： X坐标 Y坐标得分(1比6) 我想组成一个由9人组成的小组，以便：一组人之间的距离越小越好具有相同坐标的人属于不同的群体。一个群体中的人应该有不同的分数。我并不是期待一个成熟的算法，而是暗示正确的方向。到目前为止，我使用的是一个简单的k-均值算法，它可以形成组，使人与人之间的距离被最小化，但是不幸的是，其他两个约束没有被考虑。

浏览 0提问于2018-04-05得票数 1

1回答

NLP如何获取两个文档之间的差异

、、、、

我有2个文档A-B (或2系列文档)，我想要一个新的文档来显示这两个文档之间的差异: A-B 根据不同，有几种定义，一种是:单词列表/“概念”包括在A中但不包括在B中。我正在考虑对A和B的每个句子使用TF IDF，例如： from sklearn.feature_extraction.text import TfidfVectorizer d1 = [open(f1) for f1 in text_files] tfidf = TfidfVectorizer().fit_transform(d1) pairwise_similarity = tfidf * tfidf.T 我不确定这是否与生

浏览 0提问于2016-06-08得票数 0

1回答

三重损失暹罗神经网络模型评价(model.evaluate) -- tensorflow

、、、、

我训练了一个使用三重态损失的暹罗神经网络。这很痛苦，但我想我成功了。然而，我很难理解如何用这个模型来进行评估。 SNN： def triplet_loss(y_true, y_pred): margin = K.constant(1) return K.mean(K.maximum(K.constant(0), K.square(y_pred[:,0]) - 0.5*(K.square(y_pred[:,1])+K.square(y_pred[:,2])) + margin)) def euclidean_distance(vects): x, y = vects

浏览 12提问于2022-04-22得票数 6

回答已采纳

1回答

如何实时计算递增序列的临时/周期相似性？

、

考虑到随着时间的推移，有两个序列，并且在n秒钟的间隔内在序列中添加了新的数据。序列本身可能具有周期性的相似性/dis-相似性。如何实时计算序列值之间的相关性？

浏览 0提问于2018-10-26得票数 1

回答已采纳

1回答

基于图像滑动窗口的相似性比较

、

原始图像是我想将此图像中的矩形对象与矩形蒙版进行比较?如何选择矩形蒙版？如何比较矩形图像和蒙版的相似性。我想用下面的代码检查相似性本文提出了一种基于分数傅立叶变换的图像融合方法。为此，我编写了一个滑动窗口模板。如何实现这个等式： I = imread('test1.png'); imageWidth = size(I, 2); imageHeight = size(I, 1); windowWidth = 32; windowHeight = 32; for j = 1:imageHeight - windowHeight + 1 for i = 1

浏览 0提问于2015-11-19得票数 1

1回答

理解并解释建议

、

我正在尝试使用推荐实验室来构建一个UBCF并生成推荐。这个过程是可以的，预测似乎是有意义的。我需要的是向我的同行(商业和营销)解释为什么我要向那些用户推荐这些项目。我的代码是： library(recommenderlab) data(Jester5k) r <- sample(Jester5k, 1000) rec_ub <- Recommender(r[1:100],method="UBCF", param=list(normalize = "Z-score",method="Cosine", nn=3,minRatin

浏览 2提问于2015-02-18得票数 0

2回答

给定每天只有事件ID标签(字母字符串)的事件序列，什么算法可以用来检测异常值序列？

、、、、

例如，数据可能如下所示： Sequence 1: ["ABC", "AAA", "ZZ123", "RRZZZ45", "AABBCC"] Sequence 2: ["CBA", "AAA", "YY123", "LMNOP", "AABBCC"] Sequence 3: ["ABC", "AAA", "ZZ123", "RRZZZ45", "AABBCC"

浏览 0提问于2022-03-31得票数 1

回答已采纳

1回答

基于WordNet的语义相似度矩阵

、、、、

我有一个用于整个文档集合的独特单词(不包括停用词)的词汇表。我想执行查询扩展。在一些方法中，我发现对于查询中的每个单词，它的前k个同义词(通常是k=3)都会增加到查询中。但是，我使用的是基于TFIDF文档表示的向量空间模型，因此向查询中添加不在词汇表中的单词最终会被删除。而且，由于不会使用词义消除歧义技术，因此添加同义词将不能保证所添加的同义词保留查询中的单词的含义，从而导致查询漂移。因此，我正在考虑创建一个词义相似度矩阵，它将包括查询和所有可能的词义之间的相似度得分，其中词汇表中的单词已在整个语料库中使用。相似度得分将基于信息论或基于路径的方法来计算。然而，我无法理解如何找到词汇表中单词

浏览 43提问于2021-06-30得票数 0

1回答

DataModel与FileItemSimilarity在Mahout中的使用

、

我正在构建一个推荐程序，使用ItemSimilarityJob完成实际的相似度计算，然后通过FileItemSimilarity将其加载到非分布式推荐程序中。到目前为止，所有这些都是可行的，但有一件事我有点困惑。在实例化推荐程序(GenericItemBasedRecommender)时，我必须传递一个数据模型--在我的例子中它将是FileDataModel，但是由于相似度计算已经进行，我真的不知道应该将哪些数据传递到模型中？显然，该模型用于确定最大和最小偏好值以及项和用户ids。关于用户，我计划只有匿名的“配置文件”--那么传递假数据还可以吗？这是如何支持工作-马赫特的例子(1)和M

浏览 5提问于2013-06-30得票数 0

回答已采纳

2回答

如何对两个句子进行双重编码以表示相似度

、、、、

我一直在试图理解谷歌的语义体验的概念。通过使用它，我计划实现一个语义查询工具。使用通用句子编码器，我可以先对所有句子进行预编码，然后把它们放到数据库中.当用户想要执行查询时，输入也将转换为512维向量，我们将通过比较余弦相似度(选择最高相似度向量)对整个数据库执行顺序搜索。但这太慢了..。幸运的是，在他们的语义体验页面上，他们写了以下内容：通用语句编码器模型非常类似于我们在对图书和Semantris的对话中使用的方法，尽管这些应用程序使用的是双编码器方法，它最大限度地提高了响应相关性，而通用语句编码器是一个为输入返回嵌入的编码器，而不是输入对上的分数。将句子转换为嵌入向量的一种更简单的

浏览 0提问于2018-11-26得票数 1