首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >数据库和数据存储架构思考-对TP/AP一体化的可行性分析

数据库和数据存储架构思考-对TP/AP一体化的可行性分析

作者头像
人月聊IT
发布于 2025-06-24 04:35:30
发布于 2025-06-24 04:35:30
1140
举报
图片
图片

Hello大家好,我是人月聊IT,今天准备简单跟大家聊一下数据存储架构里面的TP/AP一体化问题。

在聊这个之前,我们首先还是要谈一下OLTPOLAP

OLTP叫联机事务处理,而OLAP则是联机数据分析。联机事务处理更多针对的是业务事务操作,业务处理的系统,比如采购系统、库存系统、营销销售系统;而OLAP更多偏联机数据分析,它对应的类似于数据中台或者是传统的BI系统、数据分析系统。

那么为什么原来TP和AP的数据存储没有一体化?

简单来讲,就是原来通过烟囱式的方式建设了多个业务系统,每个业务系统都有自己的数据库。然后需要通过ETL或其它数据采集集成工具,将这些数据进一步采集汇聚到分析型数据库里,再基于这个分析型数据库进行数据建模。在这种情况下,TP的数据库和AP的数据库完全是独立两套数据库,而是是分开进行规划和建设。

那么为什么要这样做?其中有三个关键原因。

其一是AP的数据库往往涉及多个业务数据库的数据关联和整合。比如我现在要输出一个合同执行的数据,往往需要关联整合来自合同,采购,库存,财务多个业务系统的数据才能够最终得出。

其二是AP的数据库为了分析方便往往涉及到横向数据分层并进行冗余。类似我们常说的数据仓库模型中有底层的贴源层和ODS库,也有上层的宽表层,再上层的数据分析层和维度建模层(维度表和事实表)等。

其三是AP数据分析往往涉及到批量和大数据,对底层数据存储架构要求不同。比如对于分析型数据库往往涉及分布式存储、MPP列式数据库等,这些都是AP数据库的关键特点。

现在回到TP/AP一体化是否可行的问题。

图片
图片

我们来看阿里近几年强调的OceanBase数据库,它强调基于HTAP(混合事务分析处理存储架构)实现了TP/AP一体化。这个数据库一体化后,做数据分析时不用再做额外的数据采集集成操作。

虽然这种一体化数据库本身有用,但是作用更多局限在单个业务应用系统里。

举个简单的例子,我们自己做的集成平台,每天接口调用日志3000万条,一年数据量上百亿。查这些历史日志,对日志做分类统计,传统结构化数据库很难做。原来需要把数据采集集成出来,放到HBase数据库或ClickHouse的MPP数据库后再进行统计分析。那么现在类似OceanBase这种一体化数据库可能就解决了这个问题。

对于OceanBase的技术文档提到两种模式:轻量级数据分析,存储架构是传统的横向存储;重数据分析模式则底层存储架构同时存在行存储和列存储两种方式。行存储转列存储是基于数据库内部底层数据同步复制完成的,对开发者和用户透明。面对大数据分析时,仍然采用分布式存储列式存储架构模式。

所以,不要简单理解TPAP一体化只有一种存储架构,它底层是混合存储,对用户透明。这是我们讲的一体化存储架构。

再讲一个关键点,对整个企业的数据中台、大数据分析平台或企业级BI建设,这不是单个应用能涵盖的,涉及多个应用的数据采集汇聚、整合关联。这种情况下,如何做TPAP一体化也是一直困扰我的问题。

最近一两个月在微信群交流时,总有人提到有产品成功实践案例解决了这个问题。我其实很系统大家能够分享企业整体应用和数据架构级的一体化解决方案。因为至少到现在为止,我没有看到实际解决这个问题的案例。

具体原因主要体现在以下几个方面。

第一个关键点:跨库数据整合问题

首先企业级分析型应用涉及跨库数据整合时,如果没有通过ETL进行数据二次落地,那必须在内存中进行数据流处理和编排,这个复杂度相当大。其次数据没有二次落地,如何基于底层共享数据存储进行数据维度建模,这也没办法做。

所以,跨库的TPAP一体化,我理解是一种折中方式,即虽然也会做数据采集整合或内存中的数据流编排,但整合加工完的汇总数据统计数据需要二次落地,对于追溯的源数据,没必要再采集落地。(也就是我强调的在这种一体化架构下,底层的贴源层是否没有存在的必要以增加二次采集集成

这是实现TPAP一体化的一个关键点,并不是完全没有数据采集和集成,而是基于AP数据分析要求,对数据进行了分层。在数据分析型库中,只从上层宽表数据或维度表建模数据,而不从最底层原数据。

第二个关键点:统一DaaS层进行数据转发路由

由于数据存储本身分开了,但对上层分析应用来讲,也是透明不可见的。所以,这种架构下,上层还会建一个大的数据总线,类似于数据路由,基于数据分析需求将请求路由到不同数据存储库,间接实现底层数据存储的逻辑统一。

这也是在做TPAP一体化时,经常考虑的一个关键点。即虽然底层的数据是分布式的,但是数据暴露给上层的访问变成了统一出口。

基于以上讨论,简单总结就是对单个应用,可以谈TPAP完全一体化,因为单个应用可能涉及数据分析、加工统计;但从企业级来讲,很难实现完整的TPAP一体化。很多时候在线事务处理数据库和分析型数据库仍然同时存在,只是在上面增加了相关的数据访问层。

好了,今天关于数据存储架构里TPAP一体化的思考就到这里。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-12-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人月聊IT 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
OceanBase单机版发布,一体化或成制胜关键
今年 2 月份,据国际数据公司(IDC)首次发布的《2024 年上半年中国分布式事务数据库软件市场跟踪报告》显示,2024 上半年中国分布式事务数据库软件市场规模为 1.5 亿美元,同比增长 18.5%。
深度学习与Python
2025/04/01
1620
OceanBase单机版发布,一体化或成制胜关键
离在线一体 引擎一体化 云原生
OLAP 是一个很卷的赛道,创业公司也众多。在本文中,笔者基于 10+ 年的大数据与数据仓库的工作经验,就目前的主流趋势:离在线一体化、引擎一体化、云原生化等写一些思考,抛砖引玉,希望能与各位共同探讨。
jasong
2023/09/09
4100
聊聊数据库一体化——YashanDB数据库融合架构设计与实践
4月12日,第十三届数据技术嘉年华 (DTC2024)在北京成功召开,YashanDB存储引擎负责人郭藏龙受邀参与,并在大会上分享了题为《数据库融合架构设计与实践》的演讲。以下是演讲实录:
qiaoyikefu
2025/01/08
1940
聊聊数据库一体化——YashanDB数据库融合架构设计与实践
鱼和熊掌可以兼得,云原生开启“数据库大数据一体化”新时代
允中 发自 凹非寺 量子位 编辑 | 公众号 QbitAI 10月23日数据湖高峰论坛上,阿里巴巴集团副总裁、阿里云智能数据库产品事业部负责人、达摩院数据库与存储实验室负责人李飞飞表示:“云原生作为云计算领域的关键技术与基础创新,正在加速数据分析全面进入数据库大数据一体化时代”。 △ 阿里巴巴集团副总裁、阿里云智能数据库产品事业部负责人李飞飞 他表示,随着数字化转型进程深入推进,企业的数据存储、处理、增长速度发生了巨大的变化,传统数据分析系统在成本、规模、数据多样性等方面面临很大的挑战。云计算的发展正在加
量子位
2023/03/10
4600
鱼和熊掌可以兼得,云原生开启“数据库大数据一体化”新时代
业内首推“共享存储”,OceanBase何以办到?
5 月 17 日,OceanBase 在第三届开发者大会上宣布一体化架构再升级,全新推出“共享存储”产品。
深度学习与Python
2025/05/21
1910
业内首推“共享存储”,OceanBase何以办到?
OceanBase,走入原生分布式数据库的无人区
在数字化时代,数据量呈现指数级增长,尤其是视频、图像、语音等数据急速积累。数据库,在整个数据价值体系中,承担着基石的作用。海啸一般的数据正在向我们迎面扑来,关于数据的整个计算、存储、应用技术体系,都必须经过大刀阔斧的改造,才能有效应对巨量的数据处理需求。那么,作为数据帝国的“重臣”,数据库该如何进化呢?答案是原生分布式数据库。
数据猿
2022/03/16
7050
OceanBase,走入原生分布式数据库的无人区
下一代分布式数据库长啥样,从OceanBase 4.3 版可以看到一些影子
在数字化时代,数据已成为企业的核心资产,驱动着决策制定、产品创新和服务优化。然而,随着数据量的激增,传统的数据库架构正面临严峻挑战。这些系统在处理大规模数据集、支持高并发事务以及实现快速数据检索方面力不从心,难以满足现代应用对性能和可扩展性的迫切需求。
数据猿
2024/04/30
1930
下一代分布式数据库长啥样,从OceanBase 4.3 版可以看到一些影子
单机分布式一体化:OceanBase 4.0为下一代数据库“打样”
克莱顿•克里斯坦森教授在其著作《创新者的窘境》中提出一个有趣的观点:固守既有的成功经验和发展路径,严重阻碍那些昔日霸主开发“破坏性”技术,而新的竞争对手会从难以预测的地方冒出来,改变看似铁板一块的市场格局。
IT创事记
2022/12/21
5420
单机分布式一体化:OceanBase 4.0为下一代数据库“打样”
不同数据库背后的数据存储方案
在大数据和AI时代,数据库成为各类应用不可或缺的重要组成部分。而数据库中的数据依赖存储引擎进行管理,包括数据的存储、查询、更新和删除等。因此,在设计系统时,选择正确的数据库存储引擎方案变得尤为重要。这篇文章将以关系型、NoSQL和NewSQL数据库,以及OLTP、OLAP和HTAP处理方式为切入点,深入探讨不同类型的数据库背后的存储引擎方案选型取舍。
洁洁
2024/06/06
5440
不同数据库背后的数据存储方案
【案例】光大银行:风险一体化项目实施
【案例】光大银行:风险一体化项目实施
数据猿
2018/04/24
1.6K0
【案例】光大银行:风险一体化项目实施
如何看待云原生数据库一体化的技术趋势?
OLTP(联机事务处理)是指为实时事务操作和日常运营任务服务的数据处理系统。OLTP主要负责实时处理事务数据,支持数据的插入、更新和删除操作,强调高并发性和实时性,主要用于记录日常的业务事件,如购买行为等。
六月的雨在Tencent
2024/09/12
2200
深入OceanBase内部机制:高性能分布式(实时HTAP)关系数据库概述
OceanBase是由蚂蚁集团完全自主研发的国产原生分布式数据库。它的设计初衷是为了满足日益增长的数据处理需求,特别是在金融、电商等对数据库性能、稳定性和扩展性有极高要求的行业中。OceanBase采用了分布式架构和一体化设计,兼具分布式架构的扩展性与集中式架构的性能优势,通过一套引擎同时支持OLTP(在线事务处理)和OLAP(在线分析处理)的混合负载。
公众号:码到三十五
2024/04/02
8560
深入OceanBase内部机制:高性能分布式(实时HTAP)关系数据库概述
湖仓一体
我理解就是各类数据爆发的公司当前数据平台架构遇到了各类各样的问题,寻求一个适配公司、平台的数据架构,一站式解决,但是大家对湖、仓本质的理解可能都不太一样,那又怎么谈湖仓一体呢。
jasong
2024/11/22
4050
浅谈一下实时数据仓库
实时数据仓库,简称实时数仓,是一种用于集成、存储和分析大规模结构化数据与非结构化数据的数据管理系统,强调数据的易用性、可分析性和可管理性。它主要面向实时数据流,能够实时地接收、处理和存储数据,并提供实时的数据分析结果。
闫同学
2023/12/05
1.7K0
企业架构之数据架构-对几个关键点的说明
今天接着跟大家聊一下数据架构方面的话题。上周我在外面出差,刚好与客户聊到了数据架构,以及数据架构与业务架构、应用架构之间的承接关系。这里有几个观点,我特别想跟大家分享。
人月聊IT
2025/06/24
980
企业架构之数据架构-对几个关键点的说明
程序员过了35岁没人要?“这行越老越香”
现场会很多招聘机会、免费的自助餐、免费的活动奖品,以及近距离接触从业超过30年大佬的机会,体验到了寓教于乐的快感,也打破了程序员35岁危机的说法。
敖丙
2024/04/26
2530
程序员过了35岁没人要?“这行越老越香”
数据库VS数仓VS数据平台VS数据中台,7000字详解数据平台的演进
目前,外界与业内很多人对于数据中台的理解存在误区,一直只是在强调技术的作用。为了统一大家的认知,更加清晰的认识数据中台出现的意义。本文将从数据平台进化演变的角度,对数据中台进行深入的介绍。
大数据分析不是事儿
2020/12/22
1.6K0
将成为数据库主流的HTAP,它能替代Oracle吗?
11 月 17 日,金山办公登陆科创版,圆了小米集团创始人、金山软件董事长雷军和金山所有员工的“英雄梦”。算下来,从 1999 年以金山办公为业务主体准备上市算起到今天,雷军足足等了 20 年。
AI科技大本营
2019/12/10
1.4K0
将成为数据库主流的HTAP,它能替代Oracle吗?
数据库和数据仓库你应该知道的
Hive作为Hadoop生态圈重要的一员已经被我们所熟知,它作为一个基于Hadoop的数据仓库工具,用来做离线的数据分析工作。那么什么是数据仓库,它与我们经常使用的数据库有什么不同呢?
叁金
2018/12/06
6860
运维平台一体化
3月底有幸参加了全球云计算开源大会,并作了一个关于《运维一体之平台一体化》的分享,现将PPT的内容整理成文。
彭华盛
2020/03/06
5.5K0
推荐阅读
相关推荐
OceanBase单机版发布,一体化或成制胜关键
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档