在大模型开发中,检索增强生成(RAG)工作流是一种将外部知识检索与语言模型生成相结合的有效方法。它能有效避免大模型产生幻觉问题,提高回答的准确性和可靠性。而 Embedding 模型在 RAG 工作流中起着关键作用,它负责将文本、结构化数据等转换为向量表示,以便进行高效的相似度检索。
工作原理:输入文本→分词→模型编码(如BERT的CLS Token或均值池化)→输出向量。
结构化数据通常以表格、数据库记录等形式存在,具有明确的字段和关系。例如,电商平台的商品信息表,包含商品 ID、名称、价格、库存等字段。在 RAG 工作流中,需要根据用户的查询条件,从结构化数据中检索相关信息。
对比维度 | SQLNet | GNNs(图神经网络) | BGE-M3 |
---|---|---|---|
工作原理 | 将 SQL 查询语句和表格结构映射到联合向量空间,基于语义理解将查询条件转为向量进行检索 | 把结构化数据看作图结构,通过节点和边的信息传递机制学习节点嵌入表示 | 基于预训练语言模型,先将结构化数据转为文本格式,再学习文本语义信息生成向量表示 |
适用场景 | 常规数据库查询场景,需根据 SQL 语句精确查询的情况,如企业资源管理系统中的员工、订单信息查询,适合表格型或数据库查询 | 处理具有复杂关系的结构化数据,如知识图谱、社交网络、分子结构等场景,适合知识图谱查询 | 结构化数据与文本数据混合场景,或需进行语义匹配的结构化数据检索,如电商搜索,适合结构化+文本数据查询 |
优势 | 查询准确性高,能精确理解 SQL 查询语义并准确返回结果效率高,针对 SQL 查询优化,处理大量结构化数据查询时检索效率高 | 强大的关系建模能力,可捕捉实体间复杂关系,挖掘深层次信息具备多跳推理能力,能在知识图谱中推导未知关系 | 语义理解能力强,基于预训练语言模型,语义匹配和检索表现出色灵活性高,可处理多种类型数据,适用场景广泛 |
性能和资源需求 | 计算资源需求相对较低,部署难度适中,适合资源有限环境 | 计算复杂度高,对计算资源需求大,训练和推理时间长,部署难度高 | 推理需一定计算资源,某些场景下比 GNNs 高效,可借助模型压缩和量化技术减少资源消耗 |
模型 | 推理速度 | 内存占用 | 部署难度 |
---|---|---|---|
SQLNet | 快 | 低 | 低 |
GNNs | 慢 | 高 | 高 |
BGE - M3 | 中 | 中 | 中 |
文本型数据是最常见的数据类型,包括文档、文章、新闻、对话等。在 RAG 工作流中,需要根据用户的文本查询,从大量的文本数据中检索相关的文档。
模型 | 核心优势 | 长文本处理 | MTEB 准确率 | 开源性 | 资源需求 |
---|---|---|---|---|---|
text-embedding-3-small | 高效且低成本,支持多语言和动态维度调整 | 有限 | 为明确披露 | 闭源(需付费 api) | 轻量级,适合 CPU/GPU 低显存环境 |
text-embedding-3-large | 性能最强,支持更大维度(3072维),适合高精度任务 | 有限 | 91.2% | 闭源(需付费 api) | 需较高显存(如 4.8GB),适合 GPU 加速 |
Nomic Embed | 完全开源可复现,长上下文(8192 token)优化,参数量小(137M) | 优(8192 序列长度) | 超越 ada-002 | 开源(MIT 协议) | 模型大小约 274MB,CPU 即可运行,资源友好 |
BGE-M3 | 中文场景最优,支持混合检索(稠密+稀疏向量),长文档处理突出 | 较好 | 多语言任务最优 | 开源(MIT 协议) | 需中等显存(如 4GB),推荐 GPU 部署以提升速度 |
模型 | 推理速度 | 内存占用 | 部署难度 | 典型应用场景 |
---|---|---|---|---|
text-embedding-3-small | 极快 | 极低 | 低 | 移动端搜索、边缘设备 |
text-embedding-3-large | 慢 | 高 | 高 | 学术检索、复杂语义分析 |
Nomic Embed | 中 | 中 | 中 | 法律、金融领域文本处理 |
BGE-M3 | 中 | 中 | 中 | 混合数据检索、多语言任务 |
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。