前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Pattern matching: The gestalt approach一种序列的文本相似度方法

Pattern matching: The gestalt approach一种序列的文本相似度方法

作者头像
学到老
发布2019-03-11 10:28:18
1.3K0
发布2019-03-11 10:28:18
举报
文章被收录于专栏:深度学习之tensorflow实战篇

Pattern matching: The gestalt approach

python 比较两个序列的相似度,不需要分词

案例1

代码语言:javascript
复制
import difflib
a="做子宫肌瘤微创手术用多少钱"
b="股癣是什么样子的?怎么治疗股癣好?"
print (difflib.SequenceMatcher(None,a,b).ratio())

输出: 0.06666666666666667

案例2

代码语言:javascript
复制
import difflib
a="做子宫肌瘤微创手术用多少钱"
b="做子宫肌瘤微创手术具体费用"
print (difflib.SequenceMatcher(None,a,b).ratio())

输出: 0.769230769

案例3

代码语言:javascript
复制
import difflib
a="做子宫肌瘤微创手术用多少钱"
b="具体费用做子宫肌瘤微创手术"
print (difflib.SequenceMatcher(None,a,b).ratio())

输出: 0.6923076923076923

案例4

代码语言:javascript
复制
import difflib
a="做子宫肌瘤微创手术用多少钱"
b="具体费用子宫肌瘤做微创手术"
print (difflib.SequenceMatcher(None,a,b).ratio())

0.6153846153846154 通过上面的案例可以看出本算法侧重的,是序列的相似性。会忽视主体的词义、语义。

该算法计算返回的分数为共同发现的序列字符数的两倍除以两个字符串中的字符总数; 得分以整数形式返回,反映百分比匹配。

目前猜测算法计算公式, 如果序列中位置没有完全匹配,如案例3,则其计算分数为9/13,9为最大公共字串,13为总字符序列数,案例4为8/13的结果,理解为4+4/13的结果。那么问题来了为什么案例2中最大9为最大公共字串的分数是那么高,应该是有一个位置完全一致得分+1.即其结果理解为9+1/13得到的结果。以上猜想均为根据测试进行猜想,并未进行有效验证,并不权威哦,后面我找到论文后拜读下,再做整理。(值得注意的是再进行过程中是以B字符为基准进行的。) 案例5 import difflib a=“10个月宝宝贫血” b=“10个月宝宝流鼻血” print (difflib.SequenceMatcher(None,a,b).ratio()) 输出 0.8235294117647058

(7+8)+1/len(a)+len(b)=7*2/8+9=0.8235294117647058

参考文献: 【1】https://docs.python.org/2/library/difflib.html 【2】https://pymotw.com/2/difflib/ 【3】http://blog.chinaunix.net/uid-20780364-id-538761.html 【4】https://docs.python.org/3.5/library/difflib.html 【5】http://www.drdobbs.com/database/pattern-matching-the-gestalt-approach/184407970 【6】https://blog.csdn.net/gavin_john/article/details/78951698

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019年02月26日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档