阿飞爱Coding
搜索引擎打分机制揭秘:TF-IDF 和 BM25 真的在做“向量化”吗?
原创
关注作者
腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
阿飞爱Coding
社区首页
>
专栏
>
搜索引擎打分机制揭秘:TF-IDF 和 BM25 真的在做“向量化”吗?
搜索引擎打分机制揭秘:TF-IDF 和 BM25 真的在做“向量化”吗?
阿飞爱Coding
关注
修改于 2025-12-05 17:23:02
修改于 2025-12-05 17:23:02
163
0
举报
概述
不是向量相似度,而是基于倒排索引的动态统计打分
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系
cloudcommunity@tencent.com
删除。
搜索引擎
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系
cloudcommunity@tencent.com
删除。
搜索引擎
评论
登录
后参与评论
0 条评论
热度
最新
推荐阅读
目录
❓ 一个更隐蔽的误解:搜索引擎会把“索引词”变成向量吗?
那什么时候词才会被向量化?
🔍 那 BM25 到底怎么打分?我们一步步拆解
第一步:看一个词在文档里出现的次数(TF)
第二步:看这个词有多“稀有”(IDF)
第三步:考虑文章长短(长度归一化)
📐 把上面的逻辑变成公式
📊关于“文档的平均长度“的说明
🧪 举个真实例子
1️⃣ 先算 IDF(衡量稀有度):
2️⃣ 再算 TF 的“有效得分”(考虑饱和和长度):
3️⃣ 最终这个词的贡献分:
🔁 闭环流程:从你的搜索词到最终排序结果
步骤 1️⃣:查询解析与分词
步骤 2️⃣:查倒排索引,获取候选文档集合
步骤 3️⃣:对每个候选文档,计算总分
举个例子:
步骤 4️⃣:返回排序结果
🧩 补充:布尔逻辑与打分的关系
✅ 关键结论(再说一遍)
🧠 什么时候才用“向量化”?
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档
0
0
0
推荐