首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >搜索引擎打分机制揭秘:TF-IDF 和 BM25 真的在做“向量化”吗?

搜索引擎打分机制揭秘:TF-IDF 和 BM25 真的在做“向量化”吗?

作者头像
阿飞爱Coding
修改2025-12-05 17:23:02
修改2025-12-05 17:23:02
1630
举报
概述
不是向量相似度,而是基于倒排索引的动态统计打分

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • ❓ 一个更隐蔽的误解:搜索引擎会把“索引词”变成向量吗?
    • 那什么时候词才会被向量化?
  • 🔍 那 BM25 到底怎么打分?我们一步步拆解
    • 第一步:看一个词在文档里出现的次数(TF)
    • 第二步:看这个词有多“稀有”(IDF)
    • 第三步:考虑文章长短(长度归一化)
  • 📐 把上面的逻辑变成公式
    • 📊关于“文档的平均长度“的说明
    • 🧪 举个真实例子
      • 1️⃣ 先算 IDF(衡量稀有度):
      • 2️⃣ 再算 TF 的“有效得分”(考虑饱和和长度):
      • 3️⃣ 最终这个词的贡献分:
  • 🔁 闭环流程:从你的搜索词到最终排序结果
    • 步骤 1️⃣:查询解析与分词
    • 步骤 2️⃣:查倒排索引,获取候选文档集合
    • 步骤 3️⃣:对每个候选文档,计算总分
      • 举个例子:
    • 步骤 4️⃣:返回排序结果
    • 🧩 补充:布尔逻辑与打分的关系
  • ✅ 关键结论(再说一遍)
  • 🧠 什么时候才用“向量化”?
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档