我想不出一个有效的SQL查询来处理以下情况:groupId : int 这个表很大(几百万行)。对于给定的groupId,查询应返回按相似度递减排序的所有其他组,其中“相似”定义为两组中所有可能的30个值对之间的最小欧几里得距离。
这种相似性的定义让我很难受。我认为对于上面定义的相似度计算,朴素算法是O(n^2)。现在,我正在寻找重新定义“相似性”或有效实现上述内容的想法。我
phonetic match then end if我可以搜索模糊度为1的文档,但我不知道如何根据模糊度给它打分。我的问题仍然存在,如何根据相似性距离实际获得分数,以便可以在本机脚本中使用:要在帖子中查找的文本:“对于未来的读者,我通过创建自定义分数查询并编写(原生)脚本来处理分数,从而解决了这个问题
我正在创建一个SSIS包,用于在两个不同的数据库中查找相似的客户。我创建了一个所有使用模糊分组的联合,并将阈值设置为85或更高。大多数结果似乎都是准确的,但是有一个像Blink and Bling这样的结果是0.88的相似度。有没有办法在不改变相似度阈值的情况下,在SSIS中添加一个规范来忽略这一点?