在当今由大型语言模型(LLM)驱动的时代,检索增强生成(RAG)技术已成为提升模型性能的关键 。然而,一个强大的RAG系统的核心瓶颈,往往在于其检索模块的基石——文本嵌入(Text Embedding)模型 。
KaLM-Embedding-V2,一个通用、紧凑且性能卓越的嵌入模型。它凭借卓越的训练技术和数据,在小于1B参数的轻量级赛道上,树立了新的行业标杆。
简单来说:KaLM-Embedding-V2 在保持“苗条”身材的同时,其性能表现甚至能与比它大 3-26倍的“大块头”模型相媲美!
🔗 立即体验:
我们是如何实现这一点的?答案在于四大关键创新:
为了让模型更好地学习文本的深层含义,我们进行了一项关键改造:
我们设计了一套循序渐进的训练方案,充分释放模型潜力:
传统训练方法平等对待所有样本,导致模型被大量“简单样本”主导。我们引入了两大“法宝”:
我们为模型精心准备了“营养大餐”:
是骡子是马,拉出来遛遛!我们在权威的 MTEB 中文和英文榜单上进行了广泛评测,结果令人振奋。
KaLM-Embedding-V2 (494M) vs. 其他模型
模型 | 参数量 | MTEB (中文) 平均分 (MTK) | MTEB (英文) 平均分 (MTK) |
---|---|---|---|
KaLM-Embedding-V2 (我们) | 494M | 68.15 | 67.47 |
KaLM-Embedding-V1 | 494M | 63.78 | 64.94 |
jina-embeddings-v3 | 572M | 61.82 | 65.51 |
gte-multilingual-base | 305M | 62.94 | 61.40 |
gte-Qwen2-1.5B-instruct | 1.5B (3x) | 67.12 | 67.19 |
e5-mistral-7b-instruct | 7B (14x) | 59.92 | 66.46 |
bge-multilingual-gemma2 | 9B (18x) | 67.64 | 69.88 |
GRITLM 8x7B | 13B (26x) | 63.01 | 65.50 |
数据来源 MTEB 排行榜,截至 2025年6月10日
结论一目了然:
gte-Qwen2-1.5B
、e5-mistral-7b
、bge-multilingual-gemma2
等参数量数倍于自己的重量级模型一较高下。bge-multilingual-gemma2
,树立了中文文本嵌入领域的新标杆。一个紧凑、高效且强大的嵌入模型,是构建在线RAG应用的理想选择。
我们已经开源了模型和代码,快来上手体验吧!
欢迎试用、反馈,一同推动文本表示学习技术的发展!
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。