译者 | 平川
策划 | Tina
本文最初发布于 Andy Pavlo 的个人博客。
又一年过去了。我本希望能多写几篇文章,而不仅仅是年终的长篇大论,但我在春季学期差点丧命,那占用了我所有的时间。尽管如此,我还是会回顾一下过去一年中数据库领域我认为重要的趋势和事件。
数据库领域有许多激动人心且前所未有的发展。氛围编程(Vibe Coding)成了日常用语。Wu-Tang Clan 宣布启动 时间胶囊项目。Databricks 未选择上市,而是进行了 两轮巨额融资,而不是只进行一轮大规模融资。
与此同时,其他事件也都在预料之中,不那么令人惊讶。Redis 公司在“抽走地毯(rugpull)”一年后换回了他们的许可(我 去年 就预测到了这一点)。SurrealDB因为没有将写入的数据刷写到磁盘而丢失了数据,但他们的基准测试数据却非常好。Coldplay 可以 破坏婚姻。不过 Astronomer 倒是从最后这件事里 尝到了不少甜头。
在开始之前,我想先回答我每年都会在评论中看到的问题。人们总是问我,在我的分析中,为什么没有提到特定的 系统、数据库 或 公司。我只能写这么多,除非过去一年中发生了一些有趣或值得注意的事情,要不就没有什么可讨论的。但也并不是所有值得注意的数据库事件,我都适合发表意见。例如,最近有人试图 揭露 AvgDatabase 首席执行官的真实身份,我认为是可以接受的,但 MongoDB 自杀诉讼案 则不属于此类。
好了,我们开始吧。这些文章每年都在变长,所以我给读者朋友们提前道个歉。
之前的文章:
PostgreSQL 延续了其统治地位
早在 2021 年,我就写到,PostgreSQL 正在 吞噬数据库世界。这一趋势还在持续,因为数据库领域里最有趣的发展还是与 PostgreSQL 有关。该 DBMS 在 2025 年 11 月发布了最新版本(v18),其中最突出的功能是新增的 异步 I/O 存储子系统,它使 PostgreSQL 终于摆脱了对操作系统页面缓存的依赖。它还增加了对 跳过扫描 的支持;即使缺少前缀,查询仍然可以使用多键 B+ 树索引。查询优化器也做了一些改进(如 移除多余的自连接)。
精通数据库的行家们会立刻指出,这些功能并不是什么突破性的创新,其他 DBMS 多年前就已经有这些功能了。PostgreSQL 是唯一仍然依赖操作系统页面缓存的主流 DBMS。Oracle 自 2002 年(v9i)以来就支持跳过扫描了!因此,你可能会问,为什么我说 2025 年数据库领域里最热门的事情是与 PostgreSQL 有关的?
原因在于,数据库领域的大部分精力和活动都投入到了与 PostgreSQL 相关的公司、产品、项目及其衍生系统上。
收购 + 发布
在过去的一年里,最热门的数据初创公司(Databricks)为一家 PostgreSQL DBaaS 公司(Neon)支付 了 10 亿美元。接下来,世界上最大的数据库公司之一(Snowflake)为另一家 PostgreSQL DBaaS 公司(CrunchyData)支付 了 2.5 亿美元。然后,地球上最大的科技公司之一(微软)推出 了一个新的 PostgreSQL DBaaS(HorizonDB)。Neon 和 HorizonDB 沿袭了 Amazon Aurora 在 2010 年代初的 高级架构,采用单主节点模式分离计算与存储功能。目前,Snowflake 的 PostgreSQL 数据库即服务(DBaaS)使用了和标准 PostgreSQL 相同的核心架构,它们均基于 Crunchy Bridge 构建。
分布式 PostgreSQL
我上面列出的所有服务都是单主节点架构。也就是说,应用程序将写入发送到主节点,然后主节点将这些更改发送到从副本。但在 2025 年,有两个新项目宣布要为 PostgreSQL 创建扩展(即水平分区)服务。2025 年 6 月,Supabase 宣布聘请 Sugu——Vitess 的共同创建者和前 PlanetScale 联合创始人 /CTO——来领导 Multigres 项目,为 PostgreSQL 创建分片中间件,类似于 Vitess 对 MySQL 进行分片的机制。Sugu 在 2023 年离开 PlanetScale,迫不得已休息了两年。如今,他或许已经摆脱了所有的法律纠纷,可以在 Supabase 大展身手了。你知道,一位数据库工程师加入一家公司不是个小事,因此 公告 更多地关注个人而不是系统。SingleStore 联合创始人兼 CTO 在 2024 年加入了微软,领导 HorizonDB 项目,但微软(错误地)没有大力宣传。Sugu 加盟 Supabase 的震撼程度,堪比 Ol' Dirty Bastard(RIP)服刑两年后假释 出狱,次日便宣布 签下新唱片合约。
在关于 Multigres 的新闻发布一个月后,PlanetScale宣布 了自己的 Vitess-for-PostgreSQL 项目 Neki。2025 年 3 月,PlanetScale 推出了其 PostgreSQL DBaaS 的初始版本,但核心架构仍然是单节点的老搭配 PostgreSQL 和 pgBouncer。
2026 年 1 月 5 日更新:有人发邮件提醒我,PgDog 也是一个寻求支持 PostgreSQL 水平分片的开源中间件系统。在心理上,我将 PgDog 和连接池代理(PgBouncer)归为了一类,但实际上它是 Multigres 和 Neki 的竞争对手。
商业格局
随着微软在 2025 年推出 HorizonDB,所有主要的云供应商现在都有自己的 PostgreSQL 产品项目了。亚马逊自 2017 年起提供了 Aurora PostgreSQL。谷歌在 2022 年推出了 AlloyDB。ServiceNow 在 2024 年推出了 RaptorDB 服务,其基础是他们 2021 年 收购 的 Swarm64。即使是 IBM 自 2018 年起也有了 云版本的 PostgreSQL。甲骨文在 2023 年发布了其 PostgreSQL 服务,尽管有传言说,其内部 PostgreSQL 团队在 2025 年 9 月的 MySQL OCI 裁员 中受到了附带伤害。
目前仍然有一些独立的(ISV)PostgreSQL DBaaS 公司。按实例数来说,Supabase 可能是这些公司中最大的。其他公司包括:YugabyteDB、TigerData(之前的 Timescale)、PlanetScale、Xata、PgEdge 和 Nile。Xata 原本基于 Amazon Aurora 构建了其架构,但今年,他们宣布 切换到自己的基础设施。ParadeDB 尚未宣布其托管服务。Tembo 则在 2025 年放弃了其 托管 PostgreSQL 产品,转而开发一种可以完成部分数据库优化的编码代理。Hydra 和 PostgresML 已于 2025 年倒闭(见 倒闭 一节),所以他们退出了游戏。其他系统提供了一个兼容 Postgres 的前端,但后端系统并非源自 PostgreSQL(如 CockroachDB、CedarDB、Google Spanner)。还有一些托管公司提供 PostgreSQL DBaaS 以及其他系统,如 Aiven 和 Tessel。
Andy 的观点
在 Databricks 和 Snowflake 收购 PostgreSQL 公司之后,不知道下一个大买家会是谁。而且,每家主要的技术公司都已经拥有了 Postgres 产品。EnterpriseDB 是最古老的 PostgreSQL ISV,但在过去的五年中,他们错过了两次最重要的 PostgreSQL 收购。但他们可以暂时依靠贝恩资本,或者寄希望于惠普收购他们,尽管那个 合作伙伴关系 是八年前的。PostgreSQL 领域的并购格局令人联想到 2000 年代末期的 OLAP 收购浪潮:当 AsterData、Greenplum 和 DATAllegro 相继被收购后,Vertica 成了最后一个在公交站等车的玩家。
好消息是竞争性的分布式 PostgreSQL 项目已经发展到了三个(Multigres、Neki、PgDog)。并非第一次有人尝试这样做:用于 OLAP 工作负载的 Greenplum、ParAccel 和 Citus 已经存在了二十年。Citus 支持 OLTP 工作负载,但他们从 2010 年开始专注于 分析领域。对于 OLTP,15 年前,NTT RiTaDB 项目与 GridSQL 合作创建了 Postgres-XC。Postgres-XC 的开发人员创建了 StormDB,后来 Translattice 在 2013 年收购了它。Postgres-X2 是一次对 XC 进行现代化改造的尝试,但开发人员放弃了这项工作。Translattice 将 StormDB 开源为 Postgres-XL,但该项目自 2018 年以来一直处于休眠状态。YugabyteDB 于 2016 年推出,可能是部署最广泛的分片 PostgreSQL 系统(并且仍然是 开源 的!),但它是一个硬分叉,只与 PostgreSQL v15 兼容。亚马逊云科技在 2024 年宣布了自己的分片 PostgreSQL(Aurora Limitless),但是闭源的。
我知道微软在 2019 年收购了 Citus,但由于他们总给自己的产品起一些令人困惑的名称,所以很难追踪他们在推出 HorizonDB 之前做了什么。Citus 在 2019 年被重新命名为 Azure Database for PostgreSQL Hyperscale,然后在 2022 年被更名为 Azure Cosmos DB for PostgreSQL。但他们还有使用 Citus 的 Azure Database for PostgreSQL with Elastic Clusters,而该服务与以 Citus 为基础的 Azure Cosmos DB for PostgreSQL 并不相同。2023 年,微软终止了 Azure PostgreSQL Single Server 服务,但保留了 Azure PostgreSQL Flexible Server。他们有各种各样的 Azure 服务。这有点像亚马逊云科技忍不住在 DSQL 的名字前加上 "Aurora"。无论如何,至少微软足够明智,将他们的新系统命名为 "Azure HorizonDB"(目前)。
PlanetScale 团队 对他们的对手没有好感,并且已知会对 Neon 和 Timescale 大打出手。数据库公司之间互相攻击并不新鲜(见 Yugabyte vs. CockroachDB 或 Databricks vs. Snowflake)。我怀疑,随着 PostgreSQL 战争的升温,未来我们将看到更多这样的情况。我建议这些小公司 呼吁 下,让那些大型的云供应商相互之间 不要提及对方的名字。
每个数据库都开始支持 MCP!
如果说 2023 年是 所有数据库管理系统(DBMS)纷纷添加向量索引 的一年,那么 2025 年就是所有 DBMS 都开始支持 Anthropic 公司 模型上下文协议(MCP)的一年。MCP 是一种标准的客户端 - 服务器 JSON-RPC 接口,使大型语言模型(LLM)能够与外部工具和数据源交互,而无需自己编写粘合代码。作为中间件,MCP 服务器位于数据库管理系统前面,暴露 DBMS 提供的工具、数据及操作清单。MCP 客户端(如 Claude 或 ChatGPT 等 LLM 宿主)通过向 MCP 服务器发送请求来发现并使用这些工具,扩展其模型能力。对于数据库场景,MCP 服务器会将查询转换为对应的数据库指令(如 SQL)或管理命令。换言之,MCP 如同一个 中间人,使数据库与 LLM 之间可以建立起足够的信任以开展协作。
Anthropic 公司在 2024 年 11 月 发布 了 MCP,但在 2025 年 3 月 OpenAI 宣布将 在其生态系统中支持 MCP 后,它才真正起飞。在接下来的几个月里,所有数据库管理系统(DBMS)供应商都发布了适用于所有系统类别的 MCP 服务器:OLAP(如 ClickHouse、Snowflake、Firebolt、Yellowbrick)、SQL(如 YugabyteDB、Oracle、PlanetScale)和 NoSQL(如 MongoDB、Neo4j、Redis)。由于 Postgres MCP 服务器没有官方的,所以每个 Postgres DBaaS 都发布了自己的服务器(如 Timescale、Supabase、Xata)。云供应商则发布了多数据库 MCP 服务器,可以与他们托管的任何数据库服务进行通信(如 亚马逊云科技、微软、谷歌)。允许单一网关与异构数据库通信,几乎已经实现了理想中的 联合数据库,但还不完全。据我所知,在这些 MCP 服务器中,每个请求每次仅针对单个数据库,因此需要应用程序负责执行跨源连接操作。
除了供应商的官方 MCP 实现方案外,几乎每种数据库管理系统(DBMS)都存在 数百种 非官方的 MCP 服务器实现方案。其中部分方案试图支持多个系统(如 DBHub、DB MCP Server)。关于 PostgreSQL MCP 服务器,DBHub 曾发布过 一篇不错的综述。
有一个有趣而又已经证明对代理有帮助的特性是数据库分支。虽然不特定于 MCP 服务器,但分支允许代理快速测试数据库更改,而不影响生产应用程序。2025 年 7 月,Neon 报告说,代理 创建了 80% 的数据库。Neon 从一开始设计就支持 分支(早先在这个系统还叫 Zenith 时,Nikita 就向我做过演示),而其他系统则是后来才添加了分支支持。要了解更多信息,可以看下 Xata 最近发表的一篇关于数据库分支的 对比文章。
Andy 的观点
PlanetScale 团队 对他们的对手没有好感,并且已知会对 Neon 和 Timescale 大打出手。数据库公司之间互相攻击并不新鲜(见 Yugabyte vs. CockroachDB 或 Databricks vs. Snowflake)。我怀疑,随着 PostgreSQL 战争的升温,未来我们将看到更多这样的情况。我建议这些小公司 呼吁 下,让那些大型的云供应商相互之间 不要提及对方的名字。
一方面,我很高兴现在有一个标准,可以用来向更多的应用程序暴露数据库的功能。但没有人应该信任一个拥有无限数据库访问权限的应用程序,无论是通过 MCP 还是系统的常规 API。而且,只授予账户最小权限仍然是一个好习惯,特别是在未监控的代理可能在你的数据库中疯狂操作时,对账户做限制显得尤为重要。这意味着,当大型语言模型开始大范围流行时,为每个账户授予管理员权限或所有服务使用同一个账户,诸如这样的懒散做法将彻底行不通。当然,如果你们公司不介意把数据库向 全世界开放,并导致某家最富有的公司市值 暴跌 6000 亿美元,那么恶意 MCP 请求就不是你最需要担心的问题了。
从我对一些 MCP 服务器实现的粗略检查来看,它们是简单的代理,只是负责将 MCP JSON 请求转换为数据库查询,并没有通过深入的自省来理解请求的目的以及它是否合适。有人会尝试在你的应用程序中 订购 18000 个水杯,你需要确保它不会导致数据库崩溃。有些 MCP 服务器有基本的保护机制(如 ClickHouse 只允许 只读查询)。DBHub 提供了一些额外的 保护,如限制每个请求返回的记录数并实现了查询超时。Supabase 的文档提供了 MCP 代理的 最佳实践指南,但也得人类遵循它们才行。当然,如果你依赖于人类做正确的事情,那么 坏事就在所难免。
企业 DBMS 有着开源系统缺乏的自动化护栏和其他安全机制,对于智能代理生态系统,它们做了更好的准备,比如,IBM Guardium 和 Oracle Database Firewall 能够识别并阻止异常查询。我不是在为这些大型科技公司做宣传。我知道,未来我们将看到更多智能代理妨害生活的例子,比如 意外删除数据库。将 MCP 服务器与代理(如连接池)结合是引入自动化保护机制的绝佳机会。
MongoDB 起诉 FerretDB
到现在,MongoDB 作为 NoSQL 领域的中坚已经有二十年了。2021 年,Percona 高层启动了 FerretDB 项目,旨在提供一款中间件代理,将 MongoDB 查询转换为适配 PostgreSQL 后端的 SQL。有了这个代理,不用重写查询就可以将 MongoDB 应用程序无缝地迁移至 PostgreSQL。
双方共存数年后,MongoDB 于 2023 年向 FerretDB 发出 停止侵权通知书,指控 FerretDB 侵犯其专利权、著作权及商标权,并违反了 MongoDB 文档及有线协议规范的许可条款。2025 年 5 月,MongoDB 就这些问题向 FerretDB提起联邦诉讼,使这封信件公之于众。双方争议的焦点之一是,FerretDB 未经授权便宣称其产品可作为 MongoDB“即插即用的替代品”。MongoDB 的 法庭文件 列举了标准指控: (1) 误导开发人员;(2) 弱化商标价值;(3) 损害企业声誉。
让这个故事变得更加复杂的是,微软宣布将与 MongoDB 兼容的 DocumentDB 捐赠给 Linux 基金会。该项目的网站提到,DocumentDB 与 MongoDB 驱动程序兼容,并且旨在“构建一个与 MongoDB 兼容的开源文档数据库”。还有其他主流的数据库供应商参与了该项目,如亚马逊云科技和 Yugabyte。粗看之下,这种语言似乎与 MongoDB 指控的 FerretDB 的行为如出一辙。
Andy 的观点
我没有找到数据库公司因对方复制其 API 而起诉对方的例子。最接近的例子是 Oracle 起诉谷歌在安卓系统中使用了 Java API 的“清洁室副本”。最终,最高法院以公平使用为由 支持了谷歌。这个案例影响了法律上对重新实现行为的处理方式。
我不知道如果这场诉讼真进入庭审阶段会如何发展。陪审团是由随机挑选的路人组成的,他们或许无法理解 MongoDB 有线协议的具体细节,但他们绝对清楚 FerretDB 最初的名字是 MangoDB。要说服陪审团,相信你给公司起名时仅替换一个字母不是想转移客户,这将非常困难。更何况这根本不是个原创名称:早就有个恶搞数据库管理系统叫 MangoDB,它会把所有数据写入 /dev/null。
说到数据库系统的命名时,微软选择“DocumentDB”让人觉得遗憾。市面上已经有 Amazon DocumentDB(顺便说一下,它也 兼容MongoDB,不过亚马逊云科技可能为此付了费)、InterSystems DocDB 和 Yugabyte DocDB。微软的“Cosmos DB”在 2016 年推出时的原始名称也是 DocumentDB。
最后,MongoDB 的法庭文件声称,他们“开创了‘非关系型’数据库”。这个说法是不正确的。第一个通用数据库管理系统是非关系型的,因为关系模型那时候还没有发明出来。通用电气的 Integrated Data Store(1964 年)使用了 网络数据模型,IBM 的 Information Management System(1966 年)使用了 层次数据模型。MongoDB 也不是第一个文档数据库管理系统。这个头衔应该归属于 1980 年代末的面向对象数据库管理系统(如 Versant)或 2000 年代的 XML 数据库管理系统(如 MarkLogic)。只是与它们相比,MongoDB 取得了压倒性的成功(也许 IMS 除外)。
文件格式之争
文件格式是数据系统中过去十年间基本处于停滞状态的一个领域。2011 年,Meta 公司针对 Hadoop 发布了名为 RCFile 的列式存储格式。两年后,Meta 对 RCFile 做了优化,并推出了基于 PAX 的 ORC(Optimized Record Columnar File)格式。ORC 发布一个月后,Twitter 联合 Cloudera 推出了 Parquet 的首个版本。近十五年后,Parquet 已成为开源领域占支配地位的文件格式。
2025 年,有五个新的开源文件格式发布,都在争取取代 Parquet 的地位:
以下是 2024 年发布的格式:
SpiralDB 今年最引人瞩目的举措是宣布 将 Vortex 捐赠给 Linux 基金会,并成立了多组织指导委员会。微软则在 2025 年底悄然 终止 了 Amudai 项目(至少将其转为闭源)。其余项目(FastLanes、F3、Anyblox)均属学术原型,其中 Anyblox 今年斩获了 VLDB 最佳论文奖。
这种新的竞争点燃了 Parquet 开发社区对其功能进行现代化改进的热情。Parquet PMC 主席 Julien Le Dem 对列式文件格式格局做了 深入的技术分析。
Andy 的观点
Parquet 的主要问题并非源于格式本身。该规范可以且已经经过演进。没有人会要求组织机构重写 PB 级的旧文件以更新至最新的 Parquet 版本。问题在于,人们用不同的语言实现了大量的读写库,而每个库只支持这个规范的特定子集。通过对实际环境中 Parquet 文件的 分析,我们发现,94% 的文件仅使用了 2013 年发布的 v1 版本的特性,即便其创建时间戳晚于 2020 年。这种最低公约数意味着:当有人使用 v2 版本的特性创建文件时,系统能否正确读取该文件完全取决于其版本兼容性。
我与清华大学的 Xinyu Zeng、Ruijun Meng、Huanchen Zhang、CMU 的 Martin Prammer、Jignesh Patel 以及 Wes McKinney 一起开发了 F3 文件格式。我们的重点是通过提供作为共享对象的原生解码器(Rust crates)和在文件中嵌入这些解码器的 WASM 版本来解决互操作性问题。如果有人创建了一种新的编码格式,而数据库管理系统尚未提供原生支持,那么它仍然可以使用 WASM 版本通过传递 Arrow 缓冲区来读取数据。每个解码器针对单个列,这使得 DBMS 能够针对单个文件同时使用原生解码器和 WASM 解码器。AnyBlox 采用了一种不同的方法,生成单个 WASM 程序来解码整个文件。
我不知道谁会赢得文件格式之争。下一场较量很可能围绕 GPU 支持展开。SpiralDB 似乎正在采取正确的举措,但 Parquet 的普及性将构成一个巨大的挑战。至于 DuckLake 如何寻求颠覆 Iceberg,我甚至还没有讨论……
当然,每当这个话题出现时,总有人会贴出 那幅关于标准竞争的 xkcd 漫画。我已经看过了,别再发邮件给我了。
偶然事件
数据库是大生意。让我们逐一了解下。
收购
市场上有很多动作。为了准备一笔收购,Pinecone 在 9 月份 更换了 CEO,但我没有听到任何其他的消息。以下是已经发生的收购:
这家 Cassandra 的坚定支持者年初被 IBM 收购,估值 30 亿美元。
作为 Lucene 替代方案的领军企业,全文搜索引擎 Tantivy 已于年初被收购。好消息是,Tantivy 的开发工作仍在继续。
这次收购对 dbt 来说是一个很好的补充,也是他们今年发布的 Fusion 的一部分,使他们能够在 DAG 中进行更严格的 SQL 分析。
Mongo 收购了一家初创 AI 公司,旨在 增强 其云产品中的 RAG 能力。在公告前一周,我 最优秀的学生 之一加入了 Voyage。他以为自己不与数据库公司签约背叛了“家族”,结果最终还是加入了一家数据库公司。
显然,这家 PostgreSQL 公司引发了一场竞购战,但 Databricks 以 令人垂涎的 10 亿美元 收购了它。Neon 至今仍然作为一个独立服务存在,但 Databricks 迅速在其生态系统中将其更名为 Lakebase。
你知道 Snowflake 不会让 Databricks 在夏天独占所有风头,所以他们为 CrunchyData 这家有着 13 年历史的 PostgreSQL 公司支付了 2.5 亿美元。近年来,Crunchy 从 Citus 吸引了一些顶级人才,并在 Snowflake 收购他们之前扩大了其 DBaaS 产品。Snowflake 在 2025 年 12 月宣布公开预览其 Postgres 服务。
Informatica,这家 1990 年代的老派 ETL 公司被 Salesforce 以 80 亿美元 的价格收购。这家公司于 1999 年上市,2015 年转为 PE,然后在 2021 年再次上市。
老实说,我一直不明白 Couchbase 在 2021 年是如何上市的,莫非是借了 MongoDB 的东风?几年前,通过整合加州大学欧文分校 AsterixDB 项目 的一些组件,Couchbase 做了一些有趣的工作。
Tecton 为 Databricks 提供了额外的代理构建工具。我的另一位学生曾在该公司工作,现在是在 Databricks。
这个团队开发了两个有用的工具:SQLMesh 和 SQLglot。前者是唯一可与 dbt(见下文,计划与 Fivetran 合并)抗衡的开源竞争者。SQLglot 是一个便捷的 SQL 解析器 / 反解析器,支持启发式的查询优化器。未来几年,Fivetran 与 SDF 将该技术与 dbt 相结合,将在该领域形成引人注目的技术布局。
购买 SingleStore 的 PE 公司(Vector Capital)以前有管理数据库公司的经验。之前在 2020 年,他们曾经 购买了 XML 数据库公司 MarkLogic,并在 2023 年将其 转手给 Progress。
在 2024 年被 PE 公司收购后,MariaDB 公司今年开启了收购狂潮。首当其冲的是开发 MariaDB 扩展中间件 Galera Cluster 的公司。详见我 2023 年对 MariaDB 混乱局面 的全面分析。
然后是 MariaDB 的第二笔收购。为避免混淆,我需要说明一下:2010 年的时候,最初为 MariaDB 提供支持的商业公司名为“SkySQL Corporation”,2014 年,它更名为“MariaDB Corporation”。2020 年,MariaDB Corporation 推出名为 SkySQL 的 MariaDB 数据库即服务(DBaaS)。但因资金持续流失,该公司于 2023 年 将 SkySQL Inc. 剥离 出去,成为一家独立的公司。而 2025 年,MariaDB Corporation回购了 SkySQL Inc.,兜了一圈后回到了原处。今年我的数据库宾果卡上可没有这一步。
自动化数据库优化工具公司 Crystal DBA 加入 Temporal 公司,帮他们自动优化数据库!很高兴得知 Crystal 创始人、伯克利数据库小组校友 Johann Schleier-Smith 在那里发展顺利。
这个系统(之前叫 OmniSci,再之前叫 MapD)是首批 GPU 加速数据库之一,于 2013 年推出。除了一家并购公司披露了这笔成功的交易外,我未能找到有关交易完成的官方公告。随后我们与英伟达召开会议,探讨潜在的数据库研究合作事宜,期间几位 HeavyDB 的伙伴也现身参与。
Dgraph 之前 在 2023 年被 Hypermode 收购。现在看来,Istari 只是买了 Dgraph,而不是 Hypermode 的其他部分(或者他们放弃了)。我还没见过任何积极使用 Dgraph 的人。
这是最早支持“与数据库对话”的数据库之一,来自威斯康星大学的 Jignesh Patel,现为 CMU-DB 教授。但后来被一家欧洲酒店管理领域的 SaaS 公司收购了。
多年来,Datometry 一直致力于将旧版 SQL 方言(如 Teradata)自动转换至新型 OLAP 系统这一棘手的问题。Snowflake 收购他们是为了扩展自己的 迁移工具。更多信息参见 Datometry 2020 年的 CMU-DB 技术讲座。
像 Snowflake 收购 Datometry 一样,ClickHouse 的这次收购是提升高性能通用 OLAP 引擎开发体验的典范。
在收购 Neon 之后,为了使 PostgreSQL 能够读写 Apache Iceberg 数据,Databricks 收购了 Mooncake。更多信息参见他们 2025 年 11 月的 CMU-DB 讲座。
这是一个将草根开源项目发展为一家公司的经典案例。Kafka 最初于 2011 年在 Linkedin 开发,随后在 2014 年,Confluent 作为独立的初创公司分拆出来,于七年后的 2021 年成功上市。随后 IBM 斥巨资将其收购。与 DataStax 的情况相似,目前尚不确定 IBM 是会对 Confluent 采取 惯常的企业收购策略,还是像 RedHat 那样使其保持独立运营。
前身为 EdgeDB,在 PostgreSQL 之上提供了一种 DSL,被 Verel 在 2025 年年底收购。
这款诞生于滑铁卢大学的嵌入式图形 DBMS 在 2025 年被一家未具名的公司收购。然后 KuzuDB 公司宣布放弃该开源项目。LadybugDB 项目旨在维护 Kuzu 代码的一个分支版本。
合并
2025 年 10 月,Fivetran 和 dbt Labs 宣布 合并 成一家公司,这个消息着实让人意外。
据我所知,数据库领域的上一次合并是 2019 年 Cloudera 和 Hortonworks 合并。但那笔交易只是两家在 Hadoop 领域苦苦寻找定位的公司试图通过合并成一家公司来扭转局面(剧透:他们没有成功)。2022 年,MariaDB 公司通过 SPAC 与 Angel Pond Holdings 公司 合并,技术上讲也算并购,但那是为了让 MariaDB 能够上市而采取的后门策略。对 投资者 来说,结果并不好。Fivetran 和 dbt 的合并与这两者不同(更好)——这两家互补的技术公司正联手打造 ETL 领域的巨头企业,为近期开展正规的 IPO 做准备。
融资
除非我错过了,或者他们没有宣布,数据库初创公司的早期融资轮次并不算多。围绕向量数据库的炒作已趋于平息,风险投资公司现在只愿为 LLM 公司花钱。
名称变更
这是我在年度总结中新增加的一个类别——数据库公司更改其公司或系统的名称。
这家 JSON 数据库公司从名字里去掉了后缀"DB" ,旨在强调其作为数据库支持型应用平台的定位,类似于 Convex 和 Heroku。我很欣赏 Harper 的团队。2021 年,他们在 CMU-DB 技术研讨会 上提出的数据库管理系统构想可以说是我听过的最糟糕的方案。好在他们意识到该方案的缺陷后果断放弃,转而采用了 LMDB 技术。
这是一个明智的举动,因为“Edge”这个名字传达了这样一个信息,它是一个用于边缘设备或服务的数据库(如 Fly.io)。不过我也不确定“Gel”是否传达了项目更高层次的目标。感兴趣的读者可以观看下他们在 2025 年 CMU-DB 技术研讨会上关于 Gel 查询语言(名称还是 EdgeQL)的讲座,由 CMU 博士校友主讲。
数据库公司为区别于其核心数据库产品而更名的案例实属罕见。通常情况是公司更名为数据库名称(如“Relational Software, Inc.”更名为“Oracle Systems Corporation”,“10gen, Inc.”更名为“MongoDB, Inc.”)。该公司有了新的定位——通用应用场景的增强版 PostgreSQL,因此他们试图摆脱“专业化时间序列数据库管理系统”的固有印象,这一策略有它的合理性,毕竟前者所处的细分市场远小于后者。
倒闭
坦白说,我曾在其中两家失败的初创公司中担任技术顾问。截止目前,我的顾问成功率可以说是惨不忍睹。我也曾担任 Splice Machine 公司的顾问,但该公司已于 2021 年倒闭。需要说明的是,我只和他们讨论技术构想,而不涉及商业策略。我确实建议 Fauna 增加 SQL 支持功能,但他们没有采纳我的建议。
Spanner 是一款颇具特色的分布式数据库管理系统,基于 Dan Abadi 的 确定性并发控制研究。恰好在 NoSQL 热潮逐渐消退之际,它提供了强一致性事务处理能力,使事务处理功能再度成为焦点。不过该系统采用 专有查询语言,并押注了 GraphQL 技术。
从名字就可以看出来,该系统旨在使人们能够在他们的 PostgreSQL DBMS 内运行 ML/AI 操作。挑战在于,他们需要说服人们将现有的数据库迁移到他们提供的托管平台上。他们推出了 pgCat,作为一个代理用于镜像数据库流量。其中一位联合创始人加入了 Anthropic。另一位联合创始人创建了一个新的代理项目 pgDog。
这是最早用 Java 编写的数据库管理系统之一,可以追溯到 1997 年(最初名为"Java DB"或"JBMS")。2000 年代,IBM 将其捐赠给 Apache 基金会,并更名为 Derby。2025 年 10 月,该项目宣布这个系统将进入“只读模式”,因为没有人对它进行积极地维护了。
尽管没有关于初创公司 DuckDB-inside-Postgres 的官方公告,但其联合创始人和员工都已经分散到了其他公司。
这是 Clickhouse 的一个分支,借助 Tantivy 增加了向量搜索和全文索引。他们在 2025 年 5 月宣布关闭这项服务。
这个团队应该是数据库公司里的超级组合。想象一下,就像 Run the Jewels 那样的团队。他们有来自 Nvidia Rapids 的顶级工程师、Apache Arrow 和 Python Pandas 的发明者,以及来自 BlazingSQL 的秘鲁 GPU 奇才。然后再加上来自顶级公司的风险投资 1.1 亿美元,包括未来的英特尔 CEO(以及 一名 CMU 的董事会成员)。他们构建了一个 GPU 加速的数据库 Theseus,但未能及时推出。
最后,尽管不是一个商业机构,但如果不提及 IBM 阿尔马登研究中心 的 关闭,那将是我的疏忽。这个研究中心是 IBM 在 1986 年建立的,几十年来一直是数据库研究的圣地。我 2013 年曾去阿尔马登参加面试,发现那里的风景很美。IBM 研究中心数据库小组 已经不是过去的样子了。尽管如此,这个神圣的数据库研究场所的校友名单依然令人印象深刻:Rakesh Agrawal)、Donald Chamberlin、Ronald Fagin、Laura Haas、Mohan、Pat Selinger、Moshe Vardi、Jennifer Widom 和 Guy Lohman。
2026-01-05 更新:我遗漏了 Gel 在 2025 年 12 月被 Vercel 收购的消息。[致谢]
2026-01-05 更新:我也遗漏了 Supabase 在 2025 年进行了两轮融资的消息。
2026-01-05 更新:尽管 TurboPuffer 没有就融资发表官方声明,但他们的 CEO 提到,其团队中增加了来自 Thrive Capital 的成员。[致谢]
2026-01-05 更新:显然,我需要一个更好的方法来跟踪融资信息,因为我还遗漏了 LanceDB 的 A 轮融资![致谢]
Andy 的观点
有人说,我是根据数据库开发公司筹集的资金数额来判断数据库的质量,显然不是这样。我之所以追踪这些动态,是因为数据库研究领域竞争激烈且充满活力。我不仅要与其他高校的学者“竞争”,还需要持续关注大型科技公司和小型创业公司推出的有趣的系统。行业研究实验室已经不是过去的样子了,只有微软研究院仍然在积极招聘顶尖人才,并做出令人难以置信的工作。
我曾 在 2022 年预测,2025 年将有大量的数据库公司倒闭。确实,今年关闭的公司比往年多,但并没有达到我预期的规模。
Voltron 的倒闭以及类似 HeavyDB 这样的收购兼并似乎延续了 GPU 加速数据库不可行的趋势。Kinetica 多年来一直靠政府合同维持运营,而 Sqream 似乎也是在勉强支撑。这些公司仍属于小众领域,至今无人能撼动 CPU 驱动型 DBMS 的主导地位。虽不便透露具体厂商的名字,但 2026 年必将有多家供应商发布 GPU 加速数据库的重要公告。这进一步印证了 OLAP 引擎的商品化趋势:现代系统的运行速度已经实现了飞跃,底层操作(扫描、连接)的性能差异微乎其微,系统间的差异化竞争正转向用户体验以及优化器生成的查询计划的质量。
Couchbase 和 SingleStore 被私募股权(PE)公司收购可能预示着数据库行业未来的一个发展趋势。当然,PE 收购以前也发生过,但似乎都是在最近:(1)MarkLogic 在 2020 年、(2)Cloudera 在 2021 年、(3)MariaDB 在 2023 年。我能找到的发生在 2020 年之前的收购只有 2007 年的 SolidDB 和 2015 年的 Informatica。PE 收购可能会逆转那些数据库公司的发展趋势,它们在被控股公司收购后发展陷入停滞,而那些控股公司则通过榨取维护费持续获利(如 Actian、Rocket)。即使是 Oracle,也依然在从 30 年前收购的 RDB/VMS 上获利!
最后,向 Nikita Shamgunov 致敬。据我所知,他是唯一一位与人联合创立两家数据库公司(SingleStore 和 Neon)且两家公司在同一年被收购的人。就像已故说唱歌手 DMX 在一年内推出两张冠军专辑(It's Dark and Hell Is Hot、Flesh of My Flesh)那样,我认为短期内无人能打破 Nikita 的纪录。
数据库元老的表现
我们来看看数据库元老拉里·埃里森的辉煌之年。这位 81 岁的老人在这一年间取得的成就,远超常人毕生所为。我将按时间顺序逐一梳理。
拉里年初时位列全球富豪榜第三。想到自己身价可能不及马克·扎克伯格,他夜不能寐。有人说拉里的失眠源于饮食变化——自从 买下英国的一家著名酒吧 后,他馅饼吃多了。但我可以向各位保证,拉里坚持三十年的“素食水瓶座饮食法”从未改变。直到 2025 年 4 月,我们得知拉里 重登全球富豪榜次席。他的睡眠质量稍有好转,但仍然远未达标。生活中的诸多烦忧仍在持续地折磨他——比如他终于决定出售那辆稀有的半合法 迈凯伦 F1 超跑,车内手套箱里还完好地保存着原厂车主手册。
2025 年 7 月,拉里在 13 年内发布了他的 第三条推文(拉里迷们称之为“#3”)。这条推文介绍了他在牛津大学附近创立的 埃里森技术研究院(EIT)的近况。以 EIT 命名且与牛津大学关联,听起来像是纯研究性的非营利机构,类似于斯坦福的 SRI 或卡内基梅隆的 SEI。但实际情况是,这是一家总部位于加州的有限责任公司旗下的多家营利性公司的统称。当然,不少怪咖在第 3 条的评论区说承诺提供 基于区块链的低温冷冻技术 或 室温超导体。拉里告诉我他根本不理会这些。不过也有人像 这位网友 一样真正理解其中的奥妙。
今年(可能是本世纪)最大的数据库新闻出现在 9 月 10 日星期三美国东部时间大约下午 3:00。经过几十年的等待,拉里·约瑟夫·埃里森终于 成了世界上最富有的人。那天早上,$ORCL 的股价上涨了 40%,由于拉里仍然拥有公司 40% 的股份,所以他的总身价估计是 3930 亿美元。从这个角度来看,这不仅使拉里成为世界上最富有的人,而且也是整个人类历史上最富有的人。约翰·D·洛克菲勒和安德鲁·卡内基(是的,CMU 中的“C”)的峰值净资产,根据通货膨胀调整后,分别只有 3400 亿美元 和 3100 亿美元。
在拉里登上世界之巅的同时,Oracle 还参与了 收购控制 TikTok 的美国公司,拉里 资助派拉蒙(由他第四次婚姻的儿子控制)竞购华纳兄弟。美国总统甚至嘲笑拉里 接管 CNN 新闻部门,因为拉里是派拉蒙的大股东。
Andy 的观点
我甚至不知道从哪里开始。当然,当我得知拉里·埃里森因数据库而成为世界上最富有的人时,我感到 由衷地欣慰,我们的生活终于发生了一些积极的事情。我不在乎 Oracle 的股价,因为那些旨在构建 AI 数据中心而非传统软件业务的 高调交易 而被人为炒高了。我也不在乎他 两个月内个人损失 1300 亿美元 导致排名下滑。这就像你我把一个月的薪水 全砸在了 FortuneCoins 上——虽然有点心疼,还得靠从 Taco Bell 买来的过期辣酱拌豆子米饭撑两周,但总会好起来的。
有些人说拉里与普通民众 脱节,或者说他因为参与和数据库无直接关系的事情而迷失了方向。他们列举了多个例子,比如他 在夏威夷的机器人农场 以每磅 24 美元(每公斤 41 欧元)的价格 出售生菜,又比如 81 岁的男人不可能 天生拥有金发。
事实是,拉里·埃里森已经征服了企业级数据库领域、竞技帆船 和 科技兄弟健康水疗中心。下一步显然是接管一个每天被成千上万在机场等待的人观看的有线电视频道。每次我和拉里交谈,他都清楚地表明他一点也不在乎人们对他的看法。他知道 他的粉丝爱他。他的(新)妻子爱他。毕竟,那才是最重要的。
结 论
在结束本次回顾之前,我想快速地说出几个名字并提点建议。首先是 PT,他在监禁期间仍在 有条不紊地参与 Turso 数据库的开发(外面见)。然后是对 JT 的遭遇表示遗憾,他因为经常在社交媒体上分享与 KevoDB 数据库开发有关的信息而 丢掉了工作。务必只在测试用数据库中放入假数据,不要因为以 1750 万美元的价格出售自己的初创公司 换得七年的监禁。
我和我的博士生们也成立了一家新的 初创公司。希望很快就能有更多的信息带给大家。一言为定。
原文链接:
https://www.cs.cmu.edu/~pavlo/blog/2026/01/2025-databases-retrospective.html
声明:本文为 InfoQ 翻译,未经许可禁止转载。