一种NLP经典统计值:TF·IDF
某个词在某类别中出现的次数 / 该类别词总数
逆文档频率高,说明该词很少出现在其他文档。所以像是“你好”这类常用词,就会有很低的IDF,而专业词,比如“脱氧核糖核酸”就会有比较高的IDF。
如果一个词对于某个领域重要程度高,那么他的TFIDF值就会比较高。例如:“黑洞”对于天文领域TFIDF值会很高,而“脱氧核糖核酸”对于生物领域TFIDF值很高。
【生成摘要时可以将顺序恢复到文本中出现的顺序,减少类似“但是...”这种作为摘要开头的可能性】
向量夹角余弦值计算:
其中:
是向量
和
之间的夹角。
是向量
和
的点积(数量积)。
和
分别是向量
和
的模(平方和开根号)。