首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >向量数据库界的 SQLite:pip install 即用,QPS 碾压 ChromaDB 两倍

向量数据库界的 SQLite:pip install 即用,QPS 碾压 ChromaDB 两倍

作者头像
智能时代蛮子
发布2026-06-10 21:04:45
发布2026-06-10 21:04:45
400
举报

GitHub: https://github.com/alibaba/zvec

一句话总结

阿里巴巴通义实验室出品的「向量数据库界的 SQLite」——基于生产级引擎 Proxima 构建的嵌入式向量数据库,C++ 核心 + Python/Node.js SDK,HNSW+RaBitQ 量化索引在 VectorDBBench 中 QPS 碾压竞品 2 倍+,原生支持稠密+稀疏向量混合检索。

值得关注的理由

  1. 嵌入式向量数据库的性能标杆:零服务部署(pip install zvec 即用),QPS 超 8,000——是同类嵌入式竞品(ChromaDB、LanceDB)的 2 倍以上,源于 C++ 核心 + 运行时 SIMD 派发(SSE/AVX2/AVX512/NEON 12 种 dispatch)
  2. HNSW + RaBitQ 量化索引:将 1-bit 随机量化与 HNSW 图索引结合,在大幅压缩内存(理论 32x)的同时保持高搜索精度——竞品没有的独有能力,源自通义实验室研究积累
  3. 从索引库到完整数据库的进化:不只是 FAISS 级的向量索引库,而是完整数据库——LSM-Tree 分段存储 + WAL + 事务 + 内嵌 SQL 查询 + 标量过滤,填补了「高性能嵌入式向量数据库」的空白

项目画像

维度

数据

GitHub

https://github.com/alibaba/zvec

Star / Fork

9,119 / 519

代码行数

~243,000 行(C++ 82.4%, Python 6.9%, CMake 3.2%)

项目年龄

4 个月(2025-12 创建,2026-01 开源)

开发阶段

高速迭代(平均 26 天一个版本,v0.2.1 最新,日均 1.5 次提交)

贡献模式

企业团队驱动(20 人,前 5 人贡献 61%,工作日占比 91.5%)

热度定位

中等热度 / 快速增长(9.1K Star,4 个月内达成)

质量评级

代码[A] 文档[B+] 测试[A-]

作者视角:为什么存在这个项目

创始人/作者背景

阿里巴巴通义实验室出品,基于内部生产级向量引擎 Proxima 构建。Proxima 在阿里集团内部已服务多年,支撑推荐、搜索、广告等核心业务的向量检索。团队有深厚的 ANN 算法研究背景,RaBitQ 量化算法是其代表性成果。20 名贡献者,典型企业团队驱动模式(工作日 91.5%)。

问题判断

团队看到了向量数据库领域的结构性矛盾:企业需要高性能向量检索,但大多数场景不需要独立的向量数据库服务。Milvus/Qdrant 需要独立部署运维,对 RAG 应用、Edge AI、桌面应用过于重量级。ChromaDB 虽然嵌入式但性能不够(Python 实现),FAISS 性能好但只是索引库(无数据库特性)。

空白地带:高性能(C++ 级别)+ 嵌入式(零服务部署)+ 完整数据库(CRUD + SQL + 事务)。

解法哲学

「SQLite 理念 + Proxima 引擎」

  • 嵌入式优先:进程内运行,无网络开销,pip install 即用
  • 性能不妥协:C++ 核心 + SIMD 硬件加速,不因嵌入式而牺牲性能
  • 完整数据库:LSM-Tree 存储 + WAL + SQL 查询 + 标量过滤 + 事务
  • 明确不做:不做分布式(那是 Milvus/Qdrant 的事),专注单机嵌入式

战略意图

开源版获取开发者信任 → 阿里云向量数据库服务(DashVector)转化付费用户。Zvec 是 Proxima 引擎的开源包装,通过「嵌入式」定位避免与 Milvus 正面竞争。

核心价值提炼

创新之处

  1. HNSW + RaBitQ 量化索引(新颖度 5/5 | 实用性 5/5 | 可迁移性 3/5) 1-bit 随机量化与 HNSW 图索引结合,理论压缩 32x 内存,通过统计校正保持精度。「内存 vs 精度」 trade-off 的前沿方案。
  2. 运行时 SIMD 多路派发(新颖度 4/5 | 实用性 5/5 | 可迁移性 4/5) 12 种 SIMD dispatch 覆盖 SSE4.2/AVX2/AVX512/NEON,运行时自动检测 CPU 能力选择最优路径。编译一次,多平台最优执行。
  3. 稠密+稀疏向量原生混合(新颖度 4/5 | 实用性 4/5 | 可迁移性 3/5) 同一数据库同时支持稠密向量(HNSW/IVF)和稀疏向量(BM25/TF-IDF),单次查询混合检索。
  4. LSM-Tree 分段存储 + WAL(新颖度 3/5 | 实用性 5/5 | 可迁移性 4/5) 向量数据按 Segment 分段存储,RocksDB 管理元数据,Arrow/Parquet 存储前向数据。WAL 保证崩溃恢复。
  5. 内嵌 ANTLR SQL 引擎(新颖度 3/5 | 实用性 4/5 | 可迁移性 3/5) 内嵌 SQL 解析器支持向量+标量混合查询语法。

可复用的模式与技巧

模式

简述

适用场景

Framework Pattern

Builder/Streamer/Searcher/Reducer 抽象索引生命周期

多算法向量索引系统

运行时 SIMD 派发

编译时多路径 + 运行时 CPU 检测

计算密集型数值库

LSM-Tree 分段存储

Segment 分段 + 后台合并 + WAL

嵌入式数据库存储引擎

RocksDB 元数据后端

成熟 KV 引擎管理元数据,自研引擎管理向量

分层存储架构

pybind11 SDK 绑定

C++ core → Python SDK,零拷贝性能

C++ 库的 Python 包装

关键设计决策

  1. C++ 核心 + 多语言绑定:核心 C++17 追求极致性能,pybind11(Python)和 N-API(Node.js)暴露 SDK。牺牲开发效率换 8,000+ QPS。
  2. Proxima Graph + 标准 HNSW 双引擎:自研 Proxima Graph 是差异化,标准 HNSW 确保技术选型自由度。
  3. 嵌入式 vs 分布式取舍:明确不做分布式,架构大幅简化(无网络层、无一致性协议),但限制了数据规模上限。

竞品格局与定位

竞品对比矩阵

维度

zvec

ChromaDB

LanceDB

FAISS

Milvus

架构

嵌入式 C++

嵌入式 Python

嵌入式 Rust

索引库 C++

客户端-服务器

性能

8,000+ QPS

中等

中上

极高

完整数据库

是(SQL+CRUD+事务)

否(仅索引)

量化索引

HNSW+RaBitQ(独有)

有限

PQ/SQ

PQ/SQ

稀疏向量

原生支持

有限

支持

部署

pip install

pip install

pip install

pip install

Docker/K8s

生态成熟度

新(4 个月)

成熟(3 年+)

成熟(2 年+)

极成熟

极成熟

差异化护城河

  1. RaBitQ 量化算法:通义实验室自研,竞品无法快速复制
  2. Proxima 引擎的生产验证:在阿里集团内部大规模验证,不是实验室产物
  3. C++ 性能 + 嵌入式便利:同类嵌入式竞品中性能碾压,同类高性能竞品中部署更简单

竞争风险

  • ChromaDB 生态更成熟(LangChain/LlamaIndex 默认集成),性能提升可能缩小差距
  • FAISS 如果增加数据库特性会直接威胁定位
  • 项目年轻(4 个月),API 稳定性和长期维护需要时间验证

生态定位

向量数据库生态中的「高性能嵌入式」角色——填补「FAISS 级性能 + SQLite 级便利」的空白。适合 RAG 应用、Edge AI、桌面应用、移动端等不适合部署独立服务的场景。

套利机会分析

  • 信息差: 9.1K Star 在向量数据库赛道属于新秀,HNSW+RaBitQ 和 SIMD 派发的技术深度在外部分析中鲜有解读——技术层面有显著信息差
  • 技术借鉴: (1) 运行时 SIMD 多路派发可迁移到任何计算密集型库;(2) LSM-Tree + RocksDB 分层架构是嵌入式数据库参考;(3) Framework Pattern 的索引抽象可用于多算法系统
  • 生态位: 填补了「高性能嵌入式向量数据库」的空白
  • 趋势判断: RAG 应用爆发 + Edge AI 增长使嵌入式向量数据库需求上升。4 个月 9.1K Star 增速验证市场认可

风险与不足

  1. 项目极年轻:仅 4 个月,API 可能频繁变化,生产采用需谨慎
  2. 生态不成熟:LangChain/LlamaIndex 等主流框架尚未默认集成
  3. 平台支持有限:不支持 Windows,ARM 支持开发中
  4. 文档偏薄:无独立文档站,主要依赖 README 和 Wiki
  5. 单机限制:不做分布式,亿级以上数据需额外方案
  6. 社区参与低:外部贡献者较少,依赖阿里内部团队

行动建议

  • 如果你要用它: 适合 RAG 应用、桌面 Agent、Edge AI 等嵌入式向量检索场景。对比 ChromaDB 性能碾压但生态不如;对比 FAISS 是完整数据库但生态更窄。新项目推荐试用,生产环境评估 API 稳定性
  • 如果你要学它: 重点关注:

- src/core/ — 向量索引算法(HNSW/Proxima Graph/IVF/RaBitQ)

- src/ailego/ — SIMD 距离计算和量化算法

- src/db/ — LSM-Tree 分段存储 + WAL + RocksDB 元数据

- bindings/python/ — pybind11 SDK 绑定层

  • 如果你要 fork 它:

- 添加 Windows 平台支持

- 集成到 LangChain/LlamaIndex 作为向量存储后端

- 添加 Go/Rust SDK

- 建设独立文档站

知识入口

资源

链接

DeepWiki

deepwiki.com/alibaba/zvec

Zread.ai

未确认

关联论文

RaBitQ 量化算法(通义实验室研究)

在线 Demo

无(嵌入式库,需本地安装)

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-05-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智能时代蛮子 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一句话总结
  • 值得关注的理由
  • 项目画像
  • 作者视角:为什么存在这个项目
    • 创始人/作者背景
    • 问题判断
    • 解法哲学
    • 战略意图
  • 核心价值提炼
    • 创新之处
    • 可复用的模式与技巧
    • 关键设计决策
  • 竞品格局与定位
    • 竞品对比矩阵
    • 差异化护城河
    • 竞争风险
    • 生态定位
  • 套利机会分析
  • 风险与不足
  • 行动建议
    • 知识入口
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档