我有一个非常有趣的问题,在过去的几天里,我一直在努力解决,但没有运气。我有120k个项目的描述,我必须与38k个项目进行比较,并确定它们之间的相似程度。最终,我想看看在基于相似性的120k内是否存在38k中的任何一个。我在excel中找到了很好的相似性脚本,我把我的数据组织成乘法表,这样我就可以比较从120k到38k的每个描述。请看下面的图片。所以函数是有效的,但是计算量是不可能在excel中运行的。如果我把它一分为二( 120k X 16k),我们谈论的是超过20亿的计算。该功能是比较从A2到B1的描述,然后比较A2到C1的描述,依此类推,直到16k。然后它从A3中进行描述,并做同样的事情,
我是一个新的进入NLP (自然语言处理)。作为一个启动项目,我正在开发一个释义识别器(一个可以识别两个类似句子的系统)。对于这个识别器,我将在三个层次上应用不同的度量,即:词汇、句法和语义。在词汇层面,有多种相似性度量,如余弦相似度、匹配系数、Jaccard系数等。对于这些度量,我使用谢菲尔德大学( University )开发的simMetrics软件包,其中包含了许多相似的度量。但是对于Levenshtein距离和Jaro-Winkler距离度量而言,代码只位于字符级别的,而我需要句子级别的代码(即将单个单词视为单元而不是字符)。此外,在SimMetrics中没有计算曼哈顿距离的代码。对于