应用模糊匹配算法的最佳方案是,当列中的所有文本字符串仅包含需要比较的字符串,而不是额外的组件时。 例如,与比较相比,与Apples4ppl3s
比比产生更高的相似性分数进行比较ApplesMy favorite fruit, by far, is Apples. I simply love them!
。
这是因为第二个字符串中的单词 Apples
只是整个文本字符串中产生较低相似性分数的一小部分。
查看以下数据集,该数据集包含调查的响应,该数据集中只有一个问题“你最喜欢的水果是什么?”
水果 |
---|
蓝 莓 |
蓝色浆果只是最好的 |
草莓 |
草莓 = <3 |
苹果 |
'sples |
4ppl3s |
Bananas |
fav 水果是香蕉 |
Banas |
到目前为止,我最喜欢的水果是苹果。 我只是爱他们! |
调查提供了一个文本框来输入值,且没有验证。
现在,需要对值进行聚类分析。 为此,请将上一个水果表加载到Power Query,选择该列,然后选择在功能区中的“添加列”菜单中读取群集值的选项。
此时将显示“ 群集值 ”对话框,可在其中指定新列的名称。 将此新列命名为 “群集 ”,然后选择“ 确定”。
默认情况下,Power Query将使用 0.8 (或 80% ) 的相似性阈值,并且上一操作的结果将生成下表,其中包含新的群集列:
完成聚类分析后,不会为所有行提供预期结果。 行号 2 (2) 仍具有值Blue berries are simply the best
,但应将其聚集到Blueberries
,与文本字符串Strawberries = <3fav fruit is bananas
类似,以及My favorite fruit, by far, is Apples. I simply love them!
。
你希望确定导致此群集的原因。 为此,可以双击 “聚集值 ”步骤来恢复 “群集值 ”窗口。 在此窗口中,展开读取 模糊群集选项 的文本,并启用读取 显示相似性分数 的选项,如下图所示,然后单击“确定”按钮:
启用 “显示相似性分数 ”选项会将新列引入表,该列显示定义的群集与原始值之间的相似性分数。
仔细检查后,可以看到,Power Query在文本字符串Blue berries are simply the best
的相似性阈值内找不到任何其他值,Strawberries = <3fav fruit is bananas
以及My favorite fruit, by far, is Apples. I simply love them!
。
可以再次返回到 “群集值 ”对话框,方法是双击 “聚集值 ”步骤并将 相似性阈值 从 0.8 更改为 0.6,如下图所示:
此更改使你更接近要查找的结果,但文本字符串 My favorite fruit, by far, is Apples. I simply love them!
除外。 这是因为通过将相似性阈值从 0.8 更改为 0.6 Power Query现在能够使用从 0.6 开始到 1 的相似性分数的值。
本文系转载,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文系转载,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。