如何检查具有模糊性的字符串中的子串？

在处理具有模糊性的字符串中的子串时，通常会使用到模糊匹配算法。这类算法允许在匹配过程中容忍一定程度的不精确性，例如拼写错误、遗漏字符或多余字符。以下是一些常用的模糊匹配算法及其应用场景：

基础概念

Levenshtein距离：也称为编辑距离，是指两个字符串之间，由一个转换成另一个所需的最少编辑操作次数。允许的编辑操作包括插入、删除和替换一个字符。
Soundex算法：一种语音算法，用于将英文单词转换为表示其发音的代码。它主要用于处理发音相似但拼写不同的单词。
Metaphone算法：另一种语音算法，比Soundex更复杂，能够处理更多英语发音的变化。
n-gram模型：将字符串分割成连续的n个字符的序列（n-grams），通过比较两个字符串的n-gram集合来衡量它们的相似度。

类型与应用场景

拼写检查：在文本编辑器或搜索引擎中纠正用户输入的拼写错误。
数据清洗：在数据分析中识别和处理近似重复的记录。
生物信息学：比较DNA序列或蛋白质序列的相似性。
自然语言处理：在语音识别或机器翻译中处理发音变化。

示例代码（Python）

以下是一个使用Levenshtein距离来检查模糊子串的简单示例：

import Levenshtein

def fuzzy_contains(main_string, sub_string, threshold=0.8):
    """检查main_string是否模糊包含sub_string，threshold为相似度阈值"""
    ratio = Levenshtein.ratio(main_string, sub_string)
    return ratio >= threshold

# 示例
main_str = "hello world"
sub_str = "helo wrld"
print(fuzzy_contains(main_str, sub_str))  # 输出: True

遇到问题及解决方法

问题：模糊匹配可能导致过多的误报或漏报。

原因：阈值设置不当或算法选择不适合当前数据集的特性。

解决方法：

调整相似度阈值，找到合适的平衡点。
尝试不同的模糊匹配算法，找到最适合当前问题的算法。
结合多种算法的结果进行综合判断。

通过上述方法和工具，可以有效地处理和分析具有模糊性的字符串中的子串。

如何检查具有模糊性的字符串中的子串？

我有一个字符串akstr = My name is khan，我想知道akstr是否包含My name，我可以很容易地做到这一点，但是如果我想检查akstr是否包含拼写错误很少的My nama，我想要True

浏览 6提问于2018-07-10得票数 2

回答已采纳

2回答

Oracle中的模糊文本搜索

、、

我有一个大型Oracle DB表，其中包含整个国家的街道名称，其中有600000+行。在我的应用程序中，我接受一个地址字符串作为输入，并希望检查该地址字符串的特定子字符串是否与表中的一个或多个街道名称匹配，这样我就可以将该地址子字符串标记为街道名称。显然，这应该是一个模糊文本匹配问题，我查询的子字符串与DB表<

浏览 3提问于2014-08-12得票数 15

回答已采纳

1回答

elasticsearch中的模糊查询与模糊逻辑有关吗？

、、、

正如标题所述，Elasticsearch的模糊查询究竟与模糊逻辑有什么关系？它背后有模糊系统吗？具有三角函数(例如)并可以用如下方式表示的人： | /\ &

浏览 1提问于2016-01-16得票数 1

回答已采纳

1回答

Azure搜索资源管理器的自动完成测试

、

搜索索引是在suggesterName SG设置为ItemDisplayName时完成的。在门户上，我尝试了一个查询字符串对于包含索引、api版本和sugestorName的基本请求UR

浏览 1提问于2017-03-21得票数 0

回答已采纳

2回答

不同回文子串的数目

、、、、

给定一个字符串，我知道如何用Manacher算法在线性时间中找到回文子串的数目。但是现在我需要找到不同的/唯一的回文子串的数目。现在，这可能会导致一个O(n + n^2)算法-一个'n‘用于查找所有这样的子字符串，而n^2用于比较每个子字符串和已经找到的子字符串，以

浏览 2提问于2013-12-09得票数 4

2回答

大多数发生在连续子字符串-滑动窗口- Python

、

给定一个字符串k和整数N，代码将循环通过，从而将窗口从左向右移动。然而，对窗口元素的捕获以及窗口的增长方式对我来说是模糊的。这些滑动窗口的问题是相似的，但没有字母方面。不重复字符的Longest子字符串:k替换后的Longest子字符串：Permutation in string：String字元:任何大小为k的连续子数组的A

浏览 3提问于2022-10-25得票数 -2

1回答

在弹性搜索中必须和MUST_NOT查询

我用包含数据"A“和"B”的元数据"User_Id“索引文档。我正在检查文件"A而不是B“。我无法得到想要的输出。我被限制不使用“查询字符串查询”和“不”操作符。

浏览 0提问于2018-10-09得票数 0

回答已采纳

2回答

比较不同文件夹中的文件名字符串

、、

我正在尝试编写一些代码来检查用户选择的模糊图片是否与它们的正常对应图片相同。到目前为止，比较部

浏览 0提问于2012-08-13得票数 0

回答已采纳

1回答

计数和返回值(如果匹配)

、

我刚刚从Rust开始，并尝试创建一个简单的函数来计算有多少NFT是用一个特定的子字符串创建的。我的NFT有一个token_id，它包含一个randomstring-tier1或randomstring-tier2，而不是返回总量。我想知道每一层。 U128(self.token_metadata_by_id.len() as u128)

浏览 2提问于2022-05-18得票数 -1

2回答

SQL查询:数据库中类似的文本

、、、、

我的DB保存文档(保存在长文本字段中)，如何获得大约一个百分比，也就是说，新文档与doc12345的文档是70%？这将阻止人们仅通过更改视图单词来创建现有文档的副本。

浏览 13提问于2016-06-10得票数 0

回答已采纳

3回答

如何模糊<p>中每个子字符串的出现

、、、、

我正在用角写一个显示短文的程序。在这些文本中，我想要模糊一个特定的子字符串，每次它发生。在这里，我想把“明天”这段文字模糊三遍。有时子字符串发生一次，有时发生两次，.或者五次。我使用一个indexOf函数完成了它，将子字符串放入具有不同类和

浏览 17提问于2022-11-29得票数 0

1回答

使用SELECT命令转换sqlite3数据库中列表的字符串表示

、

我有一个sqlite3数据库，其中一个列包含一个列表的字符串表示形式(例如：“hello”、'there‘、’示例‘)。我需要使用SELECT命令和LIKE子句来提取这样的“list”元素包含某个子字符串的行。我知道如何构建一个命令，该命令提取具有值包含子字符串的列的行，但不知道如何检查列中“list”中的</

浏览 1提问于2018-03-23得票数 0

回答已采纳

1回答

模糊逻辑在SQL Server 2014 BI版本中是否有效？有没有其他方法来检查名字之间的相似性？

、、、

模糊逻辑在SQL Server 2014 BI版本中是否有效？在比较不同数据库中的名称时，有没有其他方法可以检查名称或字符串之间的相似性？

浏览 0提问于2016-04-22得票数 0

1回答

在模糊数据关联矩阵中查找“集线器”

、、、

如果我有一个字符串列表，我如何选择一些‘代表性’字符串，以便在它们之间，它们可以模糊地匹配列表中的所有字符串。第一步，对所有文本进行模糊匹配，如下所示我的想法是选择两个或三个字符串，它们可以作为整个集合的代表，这样如果我模糊匹配，我可以用>80的阈值将所有字符串标记为1。有什么办法我能做到吗？

浏览 7提问于2022-08-31得票数 0

2回答

模糊快速字符串匹配及索引算法

、、、、

我需要尽快在一个非常大的字符串(大约100 k)中找到一组子字符串(每个大约32个字符)。我需要搜索是模糊。什么是最好的算法？我试着扫描整个大字符串的小字符串，并检查Levenshtein距离的每一步，但这需要很多时间。

浏览 3提问于2015-04-16得票数 4

3回答

Reduce返回未定义with条件

、、

我有一个解析JSON对象的字符串.现在我要检查每个对象键是否包含特定的子字符串。在这种情况下，我想将它添加到我累积的对象中。不知何故，我总是变得模糊不清。当有1个以上的字符串包含此“__c”字符串时

浏览 43提问于2019-08-20得票数 0

回答已采纳

3回答

Java中字符串的模糊字符串匹配

、、

我在NoSQL DB中存储了一个非常大的字符串列表。传入的查询是一个字符串，我想检查这个字符串是否在列表中。在精确匹配的情况下，这非常简单。该NoSQL DB可能将该字符串作为主键，我将只检查是否有任何记录将该字符串作为主键。但我也需要检查模糊匹配。有一种方法可以遍历列表中的每个字符串，并用列

浏览 1提问于2017-03-13得票数 3

1回答

子串dask上的模糊连接

、

我有两个数据框架，列为'ParseCom'，这是这个模糊联接的左索引；'REF‘应该是连接期间'ParseCom’的子字符串。这是对Dataframe的迭代，这是不建议的。如何在我要加入子串的Dask中实现模糊连接？

浏览 2提问于2022-09-28得票数 0

2回答

迅速使字符串符合RandomAccessCollection

根据Swift 5文档，String具有复杂的randomElement()方法O(1)或O(*n*)，这取决于RandomAccessCollection协议的一致性。let letters = "abcdefghijklmnopqrstuvwxyz" 如何检查我<

浏览 0提问于2019-05-26得票数 5

回答已采纳

2回答

从字符串列表中搜索模糊子字符串

、、、

好的，我看到了很多关于模糊字符串匹配，Levenstein距离，最长的公共子字符串的帖子，等等。他们似乎都不适合我想做的事。我正在从各种web服务中提取产品结果，从这些服务中我可以为该产品建立一个大的名称列表。这些名称可能包括一堆可变的垃圾。我的主要问题是我不知道如何搜索字符串列表.一开始，我想尝试最长的公共子

浏览 4提问于2013-04-30得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何检查具有模糊性的字符串中的子串？

基础概念

相关优势

类型与应用场景

示例代码（Python）

遇到问题及解决方法

相关·内容

如何检查具有模糊性的字符串中的子串？

Oracle中的模糊文本搜索

elasticsearch中的模糊查询与模糊逻辑有关吗？

Azure搜索资源管理器的自动完成测试

不同回文子串的数目

大多数发生在连续子字符串-滑动窗口- Python

在弹性搜索中必须和MUST_NOT查询

比较不同文件夹中的文件名字符串

计数和返回值(如果匹配)

SQL查询:数据库中类似的文本

如何模糊<p>中每个子字符串的出现

使用SELECT命令转换sqlite3数据库中列表的字符串表示

模糊逻辑在SQL Server 2014 BI版本中是否有效？有没有其他方法来检查名字之间的相似性？

在模糊数据关联矩阵中查找“集线器”

模糊快速字符串匹配及索引算法

Reduce返回未定义with条件

Java中字符串的模糊字符串匹配

子串dask上的模糊连接

迅速使字符串符合RandomAccessCollection

从字符串列表中搜索模糊子字符串

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐