text2vec, chinese text to vetor.(文本向量化表示工具,包括词向量化、句子向量化)
本文相关代码 获取
关注微信公众号 datayx 然后回复 文本相似似度 即可获取。
AI项目体验地址 https://loveai.tech
https://ai.tencent.com/ailab/nlp/embedding.html
文本相似度计算
query和docs的相似度比较
Result
尽管文本相似度计算的基准方法很简洁,但用平均词嵌入之间求余弦相似度的表现非常好。实验有以下结论:
基于我们的结果,好像没有什么使用词移距离的必要了,因为上述方法表现得已经很好了。只有在STS-TEST数据集上,而且只有在有停止词列表的情况下,词移距离才能和简单基准方法一较高下。
output:
get similarity score between text1 and text2
from text2vec import Similarity
a = '如何更换花呗绑定银行卡'
b = '花呗更改绑定银行卡'
sim = Similarity()
s = sim.get_score(a, b)
print(s)
get text similarity score between query and docs