
Jina AI 和 Elastic 正式发布了 jina-embeddings-v5-text,这是一个新家族的高性能、紧凑型文本嵌入模型,在所有主要任务类型中,具有与其尺寸相当的模型的顶尖性能。
该家族包括两个模型:
jina-embeddings-v5-text-smalljina-embeddings-v5-text-nano这些模型是创新训练方法的成功结果,它们在尺寸上远超许多其他模型,节省了内存和计算资源,并能更快地响应请求。
jina-embeddings-v5-text-small 模型具有 677M 参数,支持 32768 个令牌的输入上下文窗口,默认情况下生成 1024 维度的嵌入。
jina-embeddings-v5-text-nano 大约是其兄弟模型尺寸的三分之一,拥有 239M 参数和 8192 个令牌的输入上下文窗口,生成 768 维度的精简嵌入。
模型名称 | 总大小 | 输入上下文窗口大小 | 嵌入大小 |
|---|---|---|---|
jina-v5-text-small | 677M 参数 | 32768 个令牌 | 1024 维度 |
jina-v5-text-nano | 239M 参数 | 8192 个令牌 | 768 维度 |
这两个模型在整体 MMTEB (多语言 MTEB) 基准测试中表现最佳。jina-embeddings-v5-text-nano 在参数少于 500M 的模型中表现最优,尽管其参数少于 250M,而 jina-embeddings-v5-text-small 模型则在参数少于 750M 的多语言嵌入模型中领先。

这些模型可通过 Elastic 推理服务 (EIS)、在线 API 以及本地托管使用。有关如何访问 jina-embeddings-v5-text 模型的说明,请参见下面的“入门指南”部分。
嵌入模型和语义索引显著提高了搜索算法的准确性,同时也可用于其他涉及语义相似性和意义提取的任务,例如:
这个新模型家族具有许多旨在提高相关性和降低成本的功能。
我们已经优化了 jina-embeddings-v5-text 模型以适应四类广泛的任务类型:
任务 | 示例用例 |
|---|---|
检索 | 使用自然语言查询搜索,并在文档集合中检索最相关的匹配项。 |
文本匹配 | 语义相似性、去重、改写和翻译对齐等。 |
聚类 | 主题发现,文档集合自动组织。 |
分类 | 文档分类,情感和意图检测,以及类似任务。 |
通常,为一个任务优化意味着需要在另一个任务上妥协,因此大多数嵌入模型仅在某种任务中具有竞争力。然而,jina-embeddings-v5-text 模型通过训练任务特定的 低秩适应 (LoRA) 插件,能够在所有四个领域专精而不妥协。
LoRA 插件是一种 AI 模型的插件,它可以显著改变模型的行为,同时仅略微增加总大小。与其为每个任务准备一个拥有数亿参数的完整模型,jina-embeddings-v5-text 模型家族让您可以使用一个模型,并为每个任务配备一个紧凑的 LoRA 插件。这节省了内存、存储空间和推理成本。
我们使用 Matryoshka 表示学习训练了 jina-embeddings-v5-text 模型,该方法允许在质量影响最小的情况下将嵌入缩减到更小的尺寸。
默认情况下,jina-embeddings-v5-text-small 生成 1024 维度的嵌入向量,每个维度由 16 位数字表示,使得每个嵌入大小为 2KB。对于一个大型文档集合来说,这可能是一个需要存储的大量数据,并且在一个矢量数据库中进行嵌入搜索时,搜索速度与数据库的大小和每个存储向量的维度数量成正比。
但您可以简单地将嵌入大小减半(丢弃 1024 维度中的 512 个),占用空间减半,同时搜索速度加倍。这会影响性能。丢弃信息会减少精度。但正如下图所示,即使丢弃一半的嵌入,性能也仅略微下降:

只要嵌入至少有 256 维度,精度损失就应该保持较小。然而,低于此水平时,相关性和准确性会迅速恶化。
通过这样的嵌入截断,用户可以在准确性和计算成本之间自主进行权衡。这为您提供了实现搜索 AI 效率提升和成本节约的工具。
量化是减少嵌入大小的另一种方法。量化不是丢弃每个嵌入的一部分,而是降低嵌入中的数字精度。jina-embeddings-v5-text 模型生成的嵌入使用 16 位数字,但我们可以将这些数字进行四舍五入,降低其精度和存储所需的位数。在最极端的情况下,我们可以将每个数字减少到一位(0 或 1),将 jina-embeddings-v5-text 的默认 1024 维度嵌入从 2KB 压缩到 128 字节,仅通过二进制量化即可减少 94%。与截断一样,这带来了内存和计算成本上的巨大节约。然而,与截断一样,量化使得嵌入的准确性下降。
我们已经训练 jina-embeddings-v5-text 模型与 Elasticsearch 的更好的二进制量化配合使用,以最小化准确性损失。来自这些模型的二进制嵌入的基准测试显示其性能几乎与未二进制化的嵌入相等。有关二进制化性能的详细消融研究,请参阅技术报告。
许多嵌入模型是多语言的,因为它们已经在包含大量语言的材料上进行了训练。但这并不意味着它们在所有支持的语言上表现都一样好。
我们在 MMTEB 多语言基准测试中识别了 211 种语言,并将其分开,以便我们可以逐语言比较我们的模型和类似模型。下图用热图总结了我们的结果。每个补丁代表一种语言(由其 ISO-639 代码标识),颜色越绿,模型相比类似模型的平均表现越好:

虽然准确性在不同语言之间有所变化,但 jina-embeddings-v5-text 模型在全球大多数语言中都是顶尖或接近顶尖的。
有关多语言表现的详细信息,请参阅 jina-embeddings-v5-text 技术报告。
通过在 EIS 上运行 jina-embeddings-v5-text 模型,您可以在 Elasticsearch 中原生运行高性能多语言嵌入模型,并享受完全托管的 GPU 加速推理,无需配置或扩展基础设施。jina-embeddings-v5-text 模型将最新 AI 发展的紧凑多语言模型加入到不断增长的 EIS 模型目录中。这些模型在信息检索和标准数据分析基准测试中具有顶尖性能,并提供无与伦比的全球性多语言支持。
通过两款尺寸截然不同的模型,用户可以决定哪款最适合他们的应用和预算。此外,强大的嵌入在截断到较小尺寸或量化到较低精度时仍能保持性能,jina-embeddings-v5-text 模型提供了进一步节省存储和计算成本以及处理延迟的机会。
通过 jina-embeddings-v5-text 家族,Jina Reranker和 Elastic 的快速矢量和 BM25 搜索,用户现在可以从 Elastic 获得端到端的顶尖混合搜索。无论您需要最相关的结果用于检索增强生成 (RAG) 管道、搜索应用程序还是数据分析,Elastic 与 Jina 搜索 AI 模型提供了坚实且具有成本效益的质量。
jina-embeddings-v5-text 模型已完全集成到 EIS 中,您可以在创建索引时将 type 字段设置为 semantic_text,并在 inference_id 字段中指定模型(jina-embeddings-v5-text-small 或 jina-embeddings-v5-text-nano),如以下示例所示:
PUT multilingual-semantic-index
{
"mappings": {
"properties": {
"content": {
"type": "semantic_text",
"inference_id": ".jina-embeddings-v5-text-small"
}
}
}
}
# Ingest data about France
POST multilingual-semantic-index/_doc
{
"content": "The capital of France is Paris"
}
GET multilingual-semantic-index/_search
{
"query": {
"semantic": {
"field": "content",
"query": "What is the French capital?"
}
}
}Elasticsearch 会在索引和检索过程中自动选择适当的 LoRA 插件。嵌入维度(参见上面的“嵌入截断”部分)可以在创建自定义推理端点时进行设置。
有关使用 jina-embeddings-v5-text 模型的更多信息,请参阅 Elasticsearch 文档。
要了解有关 jina-embeddings-v5-text 模型的更多信息,请阅读 Jina AI 博客上的发布说明和技术报告,其中包含关于性能和 Jina AI 创新新训练程序的更多详细技术信息。有关下载和本地运行这些模型的信息,请访问 Hugging Face 上的 jina-embeddings-v5-text 集合页面。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。