用Python进行简单的文本相似度分析
使用jieba进行中文分词
利用gensim包分析文档相似度
通过corpora.Dictionary创建预料特征
通过dictionary.doc2bow...转换成稀疏矩阵
通过models.TfidfModel完成tfidf统计
通过similarities.SparseMatrixSimilarity进行文档相似度比较
代码示例
#"""
#用Python...#doc_test_list= ['金江口', '花园']
#doc_test_list= ['金', '江口', '花园']
#调用Gensim提供的API建立语料特征(此处即是word)的索引字典...#打印语料特征索引字典的key值
print('dictionary.keys=',dictionary.keys())
#dictionary.keys= [0, 1, 2, 3, 4, 5, 6,...7, 8, 9, 10, 11, 12]
#dictionary.keys= [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13]
#打印语料特征索引字典内容
print