首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >🚀 KaLM-Embedding-V2: 小模型,大能量!重新定义高效文本嵌入

🚀 KaLM-Embedding-V2: 小模型,大能量!重新定义高效文本嵌入

原创
作者头像
Yuki121
修改2025-06-29 13:52:23
修改2025-06-29 13:52:23
2470
举报

在当今由大型语言模型(LLM)驱动的时代,检索增强生成(RAG)技术已成为提升模型性能的关键 。然而,一个强大的RAG系统的核心瓶颈,往往在于其检索模块的基石——文本嵌入(Text Embedding)模型 。

KaLM-Embedding-V2,一个通用、紧凑且性能卓越的嵌入模型。它凭借卓越的训练技术和数据,在小于1B参数的轻量级赛道上,树立了新的行业标杆。

简单来说:KaLM-Embedding-V2 在保持“苗条”身材的同时,其性能表现甚至能与比它大 3-26倍的“大块头”模型相媲美!

🔗 立即体验:

💡 KaLM-Embedding-V2 的核心创新

我们是如何实现这一点的?答案在于四大关键创新:

1. 更适配表示学习的模型架构

为了让模型更好地学习文本的深层含义,我们进行了一项关键改造:

  • 移除因果注意力掩码 (Causal Attention Mask):我们打破了传统语言模型单向看文本的限制,采用了完全的双向注意力机制。这使得模型在编码文本时能同时“左看右看”,充分理解上下文,生成更精准的表示。
  • 平均池化 (Mean-Pooling):我们采用简单而高效的平均池化层来生成固定长度的向量嵌入,效果显著。

2. 精心设计的三阶段训练流程

我们设计了一套循序渐进的训练方案,充分释放模型潜力:

  • 阶段一:大规模预训练,在超过20个类别的海量弱监督开源语料上进行预训练,赋予模型强大的泛化能力。
  • 阶段二:高质量微调,在覆盖检索、分类、聚类等任务的100多个高质量数据集上进行微调,显著提升模型在各类任务上的性能。
  • 阶段三:模型融合 (Model Soup),受model soup技术的启发,我们通过参数平均的方式融合多个微调检查点,进一步增强模型的鲁棒性和泛化能力。

3. 聚焦和持续学习

传统训练方法平等对待所有样本,导致模型被大量“简单样本”主导。我们引入了两大“法宝”:

  • Focal-style权重调整:我们引入了一种类似Focal Loss的重加权机制,让模型在训练时更加关注那些难以区分的“硬骨头”样本。样本越难,权重越大!
  • 在线困难负样本混合:我们独创了在线混合策略,能够在训练过程中持续、高效地合成信息丰富的困难负样本,而无需昂贵的离线挖掘过程,极大提升了训练效率和效果。

4. 丰富全面的训练数据

我们为模型精心准备了“营养大餐”:

  • 我们收集了超过 20 大类的预训练数据100 大类的微调数据,覆盖了从公开检索到非检索的各类任务。
  • 为了让模型能“听懂指令”,我们为不同任务设计了特定的任务指令(Task Instruction),显著提升了模型在具体任务上的表现。

🏆 惊人的性能表现

是骡子是马,拉出来遛遛!我们在权威的 MTEB 中文和英文榜单上进行了广泛评测,结果令人振奋。

KaLM-Embedding-V2 (494M) vs. 其他模型

模型

参数量

MTEB (中文) 平均分 (MTK)

MTEB (英文) 平均分 (MTK)

KaLM-Embedding-V2 (我们)

494M

68.15

67.47

KaLM-Embedding-V1

494M

63.78

64.94

jina-embeddings-v3

572M

61.82

65.51

gte-multilingual-base

305M

62.94

61.40

gte-Qwen2-1.5B-instruct

1.5B (3x)

67.12

67.19

e5-mistral-7b-instruct

7B (14x)

59.92

66.46

bge-multilingual-gemma2

9B (18x)

67.64

69.88

GRITLM 8x7B

13B (26x)

63.01

65.50

数据来源 MTEB 排行榜,截至 2025年6月10日

结论一目了然:

  • 轻量级新王者:KaLM-Embedding-V2在小于1B参数的模型中,取得了中英双料的 SOTA (State-of-the-Art) 成绩。
  • 越级挑战成功:我们的模型性能不仅远超同量级对手,甚至可以和gte-Qwen2-1.5Be5-mistral-7bbge-multilingual-gemma2参数量数倍于自己的重量级模型一较高下
  • 中文领域的新里程碑:在 MTEB 中文榜单上,KaLM-Embedding-V2 的表现甚至超越了9B参数的 bge-multilingual-gemma2,树立了中文文本嵌入领域的新标杆。

🛠️ 这对你意味着什么?

一个紧凑、高效且强大的嵌入模型,是构建在线RAG应用的理想选择。

  • 更低的部署成本:模型小,意味着更少的计算资源和内存占用。
  • 更快的推理速度:在不牺牲性能的前提下,为你的应用带来更流畅的体验。
  • 卓越的通用性:无论你的应用是RAG 系统、语义搜索、文本聚类还是分类,KaLM-Embedding-V2都能提供强大的支持。

我们已经开源了模型和代码,快来上手体验吧!

欢迎试用、反馈,一同推动文本表示学习技术的发展!

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 💡 KaLM-Embedding-V2 的核心创新
    • 1. 更适配表示学习的模型架构
    • 2. 精心设计的三阶段训练流程
    • 3. 聚焦和持续学习
    • 4. 丰富全面的训练数据
  • 🏆 惊人的性能表现
  • 🛠️ 这对你意味着什么?
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档