我正在寻找一个有效的算法来解决这个问题。1.给出了两个字符串(m,n),第一个字符串的长度比第二个字符串小得多(第一个字符串通常用于长度为100的查询,第二个字符串可以是100,000,000个字符。2.第二个字符串中第一个字符串的所有最大精确匹配也以两个字符串中的区间向量的形式给出。具有m in n的子串的多次出现的机会随着该子串的大小的减小而增加。问题是找到m
我想使用difflib.SequenceMatcher从两个字符串中提取最长的公共子字符串。我不确定我是否发现了一个bug或误解了find_longest_match的文档。()
比较字符串X this is a test和this is a test X,子字符串X实际上是一个最大块:它不能扩展(也就是说,它是包含-最大)。而且,它是文本A中第一个这样的最大块,但它肯定不是最长的公共子</