首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

用C#实现字符串相似度算法(编辑距离算法 Levenshtein Distance)

在搞验证码识别的时候需要比较字符代码的相似度用到“编辑距离算法”,关于原理和C#实现做个记录。...要实现此算法,首先需要明确“字符串近似”的概念。     计算字符串相似度通常使用的是动态规划(DP)算法。     常用的算法是 Levenshtein Distance。...用这个算法可以直接计算出两个字符串的“编辑距离”。所谓编辑距离,是指一个字符串,每次只能通过插入一个字符、删除一个字符或者修改一个字符的方法,变成另外一个字符串的最少操作次数。...达到了二次方的规模(忽略距离计算时间)。     所以我们需要更高效的计算策略。在纸上写出一个句子,再写出几个关键字。一个一个涂画之后,偶然发现另一种字符串相关的算法完全可以适用。...为什么这个算法可以用来计算两个字符串的相关度?

6.3K61
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    编辑距离 (Levenshtein Distance算法)

    编辑距离是指利用字符操作,把字符串A转换成字符串B所需要的最少操作数。...一般来说,两个字符串的编辑距离越小,则它们越相似。如果两个字符串相等,则它们的编辑距离(为了方便,本文后续出现的“距离”,如果没有特别说明,则默认为“编辑距离”)为0(不需要任何操作)。...形式化定义 问题描述 给定两个字符串A和B,求字符串A至少经过多少步字符操作变成字符串B。 问题解决 当其中某个字符串长度为0的时候,编辑距离就是另一个字符串的长度....NLP基本的度量文本相似度的算法,可以作为文本相似任务的重要特征之一,其可应用于诸如拼写检查、论文查重、基因序列分析等多个方面。...但是其缺点也很明显,算法基于文本自身的结构去计算,并没有办法获取到语义层面的信息。 由于需要利用矩阵,故空间复杂度为O(MN)。这个在两个字符串都比较短小的情况下,能获得不错的性能。

    2.7K10

    精读《算法题 - 编辑距离

    如果我们仅用一个变量,只有两种定义方法: dp(i) 返回 word1 下标为 i 时最短编辑距离。 dp(i) 返回 word2 下标为 i 时最短编辑距离。...对第一种定义,我们的目标是计算出 dp(word1.length-1),其中 dp(-1) 即 word1 从空字符串转换为 word2 需要的编剧距离显然是 word2.length,即把 word2...让我们再审视一下 dp(i,j) 的含义:除了返回最短编辑距离外,正因为我们知道了最短编辑距离,所以无论操作步骤、过程如何,都可以假设我们只要做了若干步操作,下标分别截止到 i、j 的 word1、word2...,那么空字符串如何转换为 word2,或 word1 如何转换为空字符串呢?...讨论地址是:精读《算法 - 编辑距离》· Issue #501 · dt-fe/weekly 如果你想参与讨论,请 点击这里,每周都有新的主题,周末或周一发布。前端精读 - 帮你筛选靠谱的内容。

    18920

    字符串扩展

    字符串扩展 字符串扩展.png 字符的 Unicode 表示法 JavaScript 允许采用\uxxxx形式表示一个字符,其中xxxx表示字符的 Unicode 码点 ES6 对这一点做出了改进...includes():返回布尔值,表示是否找到了参数字符串 startsWith():返回布尔值,表示参数字符串是否在原字符串的头部 endsWith():返回布尔值,表示参数字符串是否在原字符串的尾部...模板字符串 模板字符串(template string)是增强版的字符串,用反引号(`)标识 如果在模板字符串中需要使用反引号,则前面要用反斜杠转义 如果使用模板字符串表示多行字符串,所有的空格和缩进都会被保留在输出之中...模板字符串中嵌入变量,需要将变量名写在${}之中 模板字符串之中还能调用函数 模板字符串甚至还能嵌套。...,返回一个斜杠都被转义(即斜杠前面再加一个斜杠)的字符串,对应于替换变量后的模板字符串 模板字符串的限制 模板字符串默认会将字符串转义,导致无法嵌入其他语言

    45530

    NLP笔记:浅谈字符串之间的距离

    于是就大概写了一下这篇文章,大致涵盖了我所知的全部字符串相似度比较的方法,大致包括: 汉明距离 最长公共子串 编辑距离 jaccard距离 bleu & rouge & …… …… 下面,我们来一个个考察一些这些内容...汉明距离 汉明距离(Hamming Distance)算是计算文本相似度的最简单的方式,他考察的是等长的字符串之间的距离,其具体定义就是两字符串之间不相同字符的个数。...而编辑距离(edit distance)则对这一点进行了优化,他的定义是: 将字符串(s1)通过下述三种变换方式转换为另一个字符串(s2)所需要的最少操作次数: 插入 删除 替换 他的算法实现和最长公共子串的算法实现有一定的雷同...,那么bleu、rouge等指标也可以用于评估两个字符串之间的距离。...总结 综上,我们可以整理出字符串相似度比较的一些常用方法如下: method 定义 算法复杂度 特点 hamming distance 两等长字符串中不同字符的个数 O

    1.4K40

    扫码

    添加站长 进交流群

    领取专属 10元无门槛券

    手把手带您无忧上云

    扫码加入开发者社群

    相关资讯

    热门标签

    活动推荐

      运营活动

      活动名称
      广告关闭
      领券