的权重反倒是越小。最后我们将TF的值和IDF的值综合考虑,便能得到关键词的权重:
?
。
二、如何计算TF-IDF值
对于一个处理好的词项-文档矩阵:
?...,n为标题的个数
%rowSum = sum(dataSet);% 每个标题中关键词的总和
rowSum = [8,6,19,6,8,19,6,4,18];
colSum...= sum(dataSet,2);% 每个词在不同标题中出现的总和
dataMade = zeros(m,n);% 构造一个一样大小的矩阵,用于存储TF-IDF值
for i.../rowSum(:,j))*TempIDF;
end
end
end
主函数
%% TF_IDF
% load data
% 注意每一列为标题,每一行为词
dataSet...2、在求解IDF时,取对数的
?
时应该是以2为底,而不是以
?
为底。
参考文献
1、《数学之美》吴军 著. 第11章 如何确定网页和查询的相关性.