基于近似匹配的返回单元格

基础概念

近似匹配（Approximate Matching）是一种在数据处理和检索中使用的技术，它允许系统在数据不完全精确匹配的情况下找到最接近的结果。在电子表格或数据库中，近似匹配通常用于查找与给定条件相似但不完全相同的记录。

类型

模糊匹配：基于某种算法（如Levenshtein距离）来衡量字符串之间的相似度。
范围匹配：查找在某个范围内的值，如日期、数字等。
部分匹配：查找包含特定子字符串的记录。

应用场景

客户关系管理（CRM）：在客户数据库中查找相似的客户记录。
电子商务：在产品数据库中查找类似的产品。
数据清洗：识别和合并重复或相似的数据记录。

遇到的问题及解决方法

问题：为什么近似匹配返回的结果不准确？

原因：

匹配算法的选择不当。
数据质量问题，如噪声、缺失值等。
匹配阈值设置不合理。

解决方法：

选择合适的匹配算法：根据数据类型和业务需求选择合适的模糊匹配算法，如Levenshtein距离、Jaro-Winkler距离等。
数据预处理：清洗数据，去除噪声和缺失值，提高数据质量。
调整匹配阈值：根据实际需求调整匹配阈值，平衡精确度和召回率。

示例代码（Python）

import pandas as pd
from fuzzywuzzy import fuzz

# 示例数据
data = {
    'Name': ['John Doe', 'Jane Smith', 'John Smith', 'Alice Johnson']
}
df = pd.DataFrame(data)

# 近似匹配函数
def approximate_match(name, threshold=80):
    matches = df[df['Name'].apply(lambda x: fuzz.token_sort_ratio(x, name) >= threshold)]
    return matches

# 测试
result = approximate_match('Jonh Do')
print(result)

参考链接

通过上述方法和示例代码，可以有效地进行近似匹配，并解决常见的匹配不准确问题。

基于近似匹配的返回单元格

、

我使用的一个软件允许我们将报告直接导出到Excel。我正在处理的报告在底部有一行始终以"Total x“开头。我正在尝试创建一个公式，可以得到x的返回值。我试过使用Vlookup，但没有成功。

浏览 14提问于2021-02-24得票数 0

回答已采纳

1回答

Excel VLOOKUP在允许近似匹配时返回#N/A，但在需要完全匹配时返回值？

、、

遇到了一个非常奇怪的问题，我对此很好奇。在Excel中，我执行了一个VLOOKUP，将联系人姓名与在另一个数据库中找到的唯一ID进行匹配。公式举例：=VLOOKUP(B2，Sheet2!我用的是近似。匹配，但是，当然，一些实例仍然返回#N/A。但是，我使用快速控制-F进行了双重检查，发现许多实例返回NA，而实际上存在(精确)匹配。我在排除故障并尝试了许多方法，但都不起作用。许多检查都证实了单元格是相等<em

浏览 26提问于2020-06-25得票数 1

2回答

Excel如何查找一列中的值存在于另一列中的值范围(近似值)

、

如何搜索一个单元格(A列)中的值是否存在于B列，其近似阈值为+/- .5Cell A2: 100.26是否有一个公式可以在B列的所有A2中搜索近似匹配+/-.5以返回true/false？

浏览 0提问于2016-10-29得票数 0

2回答

如果存在日期，则仅在单元格中添加值

、

我是新来的，所以请原谅可能不优雅的excel公式。请随时告诉我做这件事的正确方法。我正在跟踪我按日期发送的电子邮件的数量。在发送了7封电子邮件后，我只想将单元格保留为“已发送7封电子邮件” 我已经尝试添加一个额外的IF语句超过12天，但这也将包括没有任何条目的单元格。我试过使用OR，但不知道它是如何使用这些it的。7 Emails Sent",IF(F4<TODAY()-13,""))))))))

浏览 20提问于2019-05-20得票数 0

回答已采纳

3回答

比较包含数据的两列并计算其出现次数的公式？

、、、、

我之前问了一个类似的问题()，但我的问题仍然没有解决。正如你在这些截图中看到的，公式只在精确匹配的情况下才返回"1“值，但我需要一个近似匹配。因此，例如，如果我需要"Apple“并且我有"Apple Inc”公式必须返回"1“，因为单元格包含"Apple”。我将附上此gsheet的链接，以使我

浏览 0提问于2020-07-07得票数 1

1回答

使用近似或部分关键字匹配将类别分配给文本单元格

、

我希望能够根据单元格中的文字，将B栏中的特定类别大量分配给A栏中的文本单元格。我可以使用VLookup来完成这个任务，但是它只适用于Vlookup类别值表中指定的精确匹配项。是否有一个标准的公式，我可以用它来根据近似的或部分的短语匹配来标记类别，而不仅仅是精确。显然，锚文本的使用是非常多样化的，将是不可能用准确的</em

浏览 2提问于2016-11-23得票数 0

6回答

基于近似匹配的矢量位置

我有排序的向量我想在近似匹配的基础上找到一个值的位置。如果该值不存在于向量中，我希望得到前一个值的位置。为了精确匹配，我会用[1] 4> match(6,m)在这个例子中，我想得到的是8 (前一个值6的位置，也就是5.7的位置，即8)

浏览 6提问于2011-08-31得票数 7

回答已采纳

2回答

Excel在字符串VLOOKUP上失败

、

我有张像这样的桌子43 XS 645 M 1647 XL 26我写了一个公式：它返回的值为21。update I在另一个表中复制了这个准确的错误。VLOOKUP在搜索值为数字时工作，但在使用字符串时始终失败。

浏览 5提问于2011-01-21得票数 18

回答已采纳

1回答

同意有指向偏颇的处罚

、

我使用tre-agrep (管理手册) ( agrep (管理手册)的一个实现)来执行近似模式匹配。此实用工具基于Levenshtein距离搜索匹配项，用户可以配置用于替换、插入或删除编辑的惩罚。但是，我希望在查询的长度上使用不同的权重，即在查询的开头(左侧)删除的权重比在右边的要低。此实用程序的man页面并不表示这种级别的控制是可能的。是否还有其他命令行工具可以

浏览 0提问于2014-07-30得票数 16

1回答

比较两个具有阈值的二进制数组(近似匹配)

、、、、

我想看看target中是否有任何模式具有阈值(例如，最多4个不匹配)和返回匹配的数量(没有重叠发生，如果一个匹配，则下一个匹配将是800个单元格远)。我知道这是一种近似匹配问题，但我不知道使用哪种算法性能最好。到目前为止，我所做的是：( like2方法具有更好的性能) void compare (bool *target, int t, bool * pattern , int p , int th

浏览 1提问于2015-08-24得票数 1

1回答

vlookup的Excel提示

、

我使用的是V查找函数，最后它将值显示为空请告诉我公式中是否有任何错误或其他我不能确定ir的问题。

浏览 0提问于2017-10-17得票数 0

1回答

Excel -多列重复汇总计数

、

我似乎想不出这个问题的答案。在使用公式时，我可以找到重复的单元格，并将其与一系列单元格进行比较，然后将该公式复制到每一行；然后，我可以对结果求和。但是，我希望在单个单元格中包含一个公式。我想要取一列中的单元格范围，将整个集合与另一列中的单元格范围进行比较，并对列1中的单元格与列2中的单元格匹配的所有重复单元格求

浏览 5提问于2013-11-06得票数 0

2回答

当单元格值中有句点时，VLOOKUP将返回#N/A

、

我正在为excel编写一个公式，以便在单元格A13更改时找到一个值，然后将A13的值与工作簿中的其他工作表进行比较，然后返回找到的值。我正在努力使这个公式工作，因为由于某些原因，当单元格中有句点时，VLOOKUP返回"#N/A“。当我使用TRUE并进行近似匹配时，它有时会起作用。下面是一个在搜索精确匹配时返回#N/A的值的示例: AB

浏览 1提问于2017-05-11得票数 0

2回答

确定单元格的范围是否具有条件格式和不带条件格式的相同颜色。

、

我需要确定同一行中的所有单元格是否都是相同颜色的单元格。如果是，我需要返回一个结果，如“匹配”，否则“不匹配”。问题是，一些单元格是基于选择列表有条件地格式化的，而另一些单元格是基于颜色填充选择来着色的。我遇到的问题是，带有条件格式的单元格的实际背景色不会改变，所以我使用的公

浏览 7提问于2020-12-15得票数 0

回答已采纳

1回答

Vlookup方程

、、

如果你在col1中有一个日期，在sheet1的col2中有一个名字，你可以使用vlookup在sheet2中搜索这个名字，如果sheet2中的名字有多个日期，那么返回唯一的第一个日期更大的日期吗？

浏览 8提问于2019-06-05得票数 0

1回答

理解Excel中的vlookup公式？

、、、

我在电子表格中有两个列表，其中一些名称匹配，有些则不匹配。例如:在B2中，它会读取0或false，因为C列中没有Jimmy。但是，在B3中，公式的工作方式应该像A3中的文本匹配C列中的任何文本一样--它分配相应的D值，直接在右边。所以，在B3，答案是47.33。最终目标是B列中的值与A列对应，就像C列对应于D列一样。

浏览 2提问于2014-01-02得票数 0

1回答

计算两序列相似性的复杂性

、、、

计算两个序列之间相似性的最著名算法的计算复杂度是多少(如DNA或蛋白质比对/近似字符串匹配)？这种相似性是基于：编辑:在假定参考数据集的预处理/索引的前提下，

浏览 1提问于2013-02-09得票数 3

2回答

基于PHP MySQL的近似匹配搜索

、、

我想使我的搜索功能，以更巧妙地工作在拼写错误或产品名称特殊字符的情况下。SELECT name, image, sku, description

浏览 3提问于2015-12-18得票数 4

1回答

jsPDF/jsPDF-将dom元素自动打印到表中

、、、、

我使用jspdf和jspdf-autotable将基于数据的表导出到PDF中。目标是将至少一个近似内容打印到打印单元格中。为此，我希望使用jspdf-autotable选项(drawCell() / createdCell())提供的钩子方法来准备内容。

浏览 7提问于2016-04-16得票数 0

2回答

映射多个相同行的Sumif

、

我想要写excel公式，如果基于行的匹配值之和。问题是，要匹配的单元格可以发生多次，并且根据映射图例，它们应该返回值的和。在黄色单元格中，我试图计算范围为B9:B14的值之和。在公式中，我使用索引来匹配名称，并返回所有连接到Item1、Item2和Item 3的总和。不幸的是，索引只给出了与第一次匹配的<em

浏览 0提问于2018-08-23得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

基于近似匹配的返回单元格

基础概念

相关优势

类型

应用场景

遇到的问题及解决方法

问题：为什么近似匹配返回的结果不准确？

示例代码（Python）

参考链接

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐