最后,还是帮作者点个在看吧,谢谢~~
正文开始
1
First Blood
1、从向量化特征缺失说起
在将文本分词并向量化后,我们可以得到词汇表中每个词在各个文本中形成的词向量,我们将下面4个短文本做了词频统计...上面的IDF公式已经可以使用了,但是在一些特殊的情况会有一些小问题,比如某一个生僻词在语料库中没有,这样我们的分母为0, IDF没有意义了。...有了IDF的定义,我们就可以计算某一个词的TF-IDF值了:
?
其中TF(x)指词x在当前文本中的词频。...3、举例说明TF-IDF计算方式
比如有这么一个简单语料库:
corpus = [["我","a","e"],["我","a","c"],["我","a","b"]]
计算文本频率:统计的语料中词语出现的次数与所有词语的总数的比值...,比如在上述例子中,一共有五个词(我,a,b,c,e),所有词汇总数是5,其中“c”这个字出现了1次,所以“我”的文本频率是1/5,其他依次类推。