版权声明:本文为博主原创文章,转载请注明出处。 https://cloud.tencent.com/developer/article/1437731
水平有限,如有错误请指正!
a document or zone that mentions a query term more often has more to do with that query and therefore should receive a higher score
query term
: a set of words
NN:document中term的总数
tt:document中term出现的次数
tft=tN
tf_t=\frac{t}{N}
NN: document的数量
dftdf_t:有多少documents 包含tt
idft=logNdft
idf_t=log\frac{N}{df_t}
从公式可以看出:
tf-idft,d=tft,d∗idft
\text{tf-idf}_{t,d}=tf_{t,d}* idf_t
参考:
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有