如何在Python中比较两个字符串(非英语)之间的相似性

在Python中比较两个非英语字符串的相似性通常涉及以下几种方法：

基础概念

字符串相似性比较通常基于以下几个概念：

编辑距离（Levenshtein Distance）：衡量两个字符串之间由一个转换成另一个所需的最少编辑操作次数。
余弦相似度（Cosine Similarity）：通过计算两个向量的夹角的余弦值来评估它们的相似度。
Jaccard 相似系数：用于衡量两个集合交集与并集之间的比例。
n-gram 相似度：将字符串分割成连续的n个字符的片段，然后比较这些片段的相似度。

类型与应用场景

编辑距离：拼写检查、DNA序列分析等。
余弦相似度：文本分类、信息检索等。
Jaccard 相似系数：社交网络分析、文档聚类等。
n-gram 相似度：自然语言处理中的文本相似度计算。

示例代码

以下是使用Python实现这些方法的示例代码：

编辑距离（Levenshtein Distance）

import Levenshtein

str1 = "你好世界"
str2 = "你好世纪"

distance = Levenshtein.distance(str1, str2)
print(f"编辑距离: {distance}")

余弦相似度（Cosine Similarity）

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

str1 = "你好世界"
str2 = "你好世纪"

vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform([str1, str2])
cosine_sim = cosine_similarity(tfidf_matrix[0:1], tfidf_matrix[1:2])[0][0]
print(f"余弦相似度: {cosine_sim}")

Jaccard 相似系数

def jaccard_similarity(str1, str2):
    set1 = set(str1)
    set2 = set(str2)
    return len(set1.intersection(set2)) / len(set1.union(set2))

str1 = "你好世界"
str2 = "你好世纪"

similarity = jaccard_similarity(str1, str2)
print(f"Jaccard 相似系数: {similarity}")

n-gram 相似度

from nltk import ngrams

def ngram_similarity(str1, str2, n):
    n_grams1 = set(ngrams(str1, n))
    n_grams2 = set(ngrams(str2, n))
    return len(n_grams1.intersection(n_grams2)) / len(n_grams1.union(n_grams2))

str1 = "你好世界"
str2 = "你好世纪"

similarity = ngram_similarity(str1, str2, 2)
print(f"n-gram 相似度 (n=2): {similarity}")