近十年前,在某中心首次re:Invent大会上,某中心宣布推出完全托管的PB级云数据仓库服务预览版。这项服务代表了从传统本地部署数据仓库解决方案的重大飞跃,传统方案成本高昂、缺乏灵活性,且需要大量人力和资本资源来运营。
该服务通过生成高度优化的C++代码,将其发送到并行数据库中的分发器并执行这种高度优化的代码。这种独特的查询执行方式一直是服务的核心。在传统商业智能世界中,系统针对长时间运行的作业进行优化,但实际观察发现,服务中每天运行的数十亿查询中有90%在不到一秒内完成执行。
过去十年中支持这一目标的最大架构变化是引入了托管存储,这使得计算和存储得以分离,并在每个领域进行了大量创新。托管存储层设计用于实现99.999999999%的持久性和99.99%的可用性,跨多个可用区管理用户数据和事务元数据。
在易用性方面,三个创新尤为突出:
该服务是云中首个能够查询对象存储数据的数据仓库,随后展示了在扫描对象存储中EB级数据的同时查询集群中数据的能力。除了查询数据湖外,对事务数据存储的集成查询也是另一项重大创新。
通过集成机器学习服务,任何了解SQL的人都可以利用所有机器学习创新。从SQL提示符创建模型的能力,将数据获取到对象存储并调用机器学习服务,使用自动化机器学习构建最合适的模型来提供数据预测。
通过分离存储和计算层,实现了数据共享,使客户能够在同一账户、其他账户或跨区域的集群间共享数据。这允许将数据的消费者与生产者分离,支持现代数据网格架构等场景。
随着客户生成的数据量不断增加,他们希望更经济高效地分析这些数据。数据量呈指数级增长,但客户显然不希望成本呈指数级增长。这需要持续创新,并找到新的性能水平,确保处理单位数据的成本持续下降。
系统将继续在软件、硬件、硅芯片和使用机器学习方面进行创新,以确保为客户实现这一承诺。过去十年已经实现了这一承诺,未来将继续专注于确保实现这一承诺。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。