我遇到了一个问题,即在OCR识别的文本中匹配字符串并找到它的位置时,考虑到可能存在对错误、缺失或额外字符的任意容限。结果应该是一个最佳匹配位置,可能(不一定)具有匹配子字符串的长度。Substring: Tolerance is too high;Result: no match
我尝试过调整Levenstein算法,但它不能正确地用于子字符串,并且不能返回位置最好使用Delphi中的算法,但任何实现或伪逻
在我的工作中,我使用了近似字符串匹配算法,如Damerau-Levenshtein距离,以使我的代码不太容易出现拼写错误,并取得了很好的结果。现在,我需要将字符串与简单的正则表达式(如TV Schedule for \d\d (Jan|Feb|Mar|...) )进行匹配。这意味着字符串TV Schedule for 10 Jan应该返回0,而T Schedule for 10. Jan应该返回2。这可以通过在正则表达式中生成所有字符串(在本例中为100x12)并找到<