1.背景 在互联网架构中,数据系统通常分为真实数据(source-of-truth)系统,作为基础数据库,存储用户产生的写操作;以及衍生数据库或索引,提供读取和其他复杂查询操作。后者常常衍生自主数据存储,会对其中的数据做转换,有时还要包括复杂的业务逻辑处理。缓存中的数据也来自主数据存储,当主数据存储发生变化,缓存中的数据就需要刷新,或是转为无效。这样架构自然而然的一个问题就是如何保障基础数据库和其它数据存储方的数据一致性。一个想法是双写,在有数据进来的时候就同时更新基础数据库和衍生数据库(或缓存),但这种方式如果没有很强的协议来保证,就还是会有一致性问题,比如说主数据库写入成功但是衍生数据库(或缓存)写入失败。另外的一个方案就是只写基础数据库,其它衍生数据库(缓存)通过监听基础数据库的变化来进行数据变更,这个方案要求能有一个工具能监听基础数据库的变更并且能够及时的通知衍生数据库(缓存)具体的变化,而Databus就是这样的一个系统。
2.简介 Databus是一个实时的低延时数据抓取系统。它将数据库作为唯一真实数据来源,并将变更从事务或提交日志中提取出来,然后通知相关的衍生数据库或缓存。 Databus传输层端到端的延迟是微秒级别的,这意味着每台服务器每秒可以处理数千次数据吞吐变更事件,同时还支持无限回溯能力和丰富的变更订阅功能,目前从实践中来看,单个DB写入QPS达到1.5k就要进行拆库,而到达2k就会出现比较明显的主从延迟,而relay虽然要串行解析单个库的binlog,但是也可以扛到2.2k。下面的图是大概的结构:

上图展示Search Index、Read Replicas系统是Databus的消费者。当Primary DB发生数据变更的时候,连接其上的中继系统会将数据拉取到中继上去。嵌入在Search Index或缓存中的Databus消费者客户端就会从中继拉取数据并更新缓存或数据库。 DataBus提供以下功能:
3.简单架构

粗略的来说databus主要模块是两个,一个是relay,负责从mysql/oracle拉取变更事件,并存储到本地的内存buffer;一个是client,负责从relay拉取变更事件,并做业务定制化的处理。 上面的图片是Databus的大致架构,可以看到包括中继Relay、Bootstrap服务和客户端库三大模块;其中Bootstrap包括BootStrap Producer和BootStrap Server。快速变化的消费者从relay中拉取数据,但如果一个消费者的数据大幅度落后,relay就不能提供它要的数据,转而由Bootstrap Producer提供给它自上次处理后变更的所有数据快照。下面来具体的介绍下这几个模块的主要功能: Databus Relay中继主要功能:
Databus客户端的功能主要包括:
Bootstrap Server可以看成一种特定的Databus客户端,它的功能有:
Databus Bootstrap Server的主要功能,就是监听来自Databus客户端的请求,并返回长期回溯数据变更事件。 目前databus的主要应用:1.是主数据库和衍生数据库的同步,一般是为了对主数据库数据按另外维度进行组织,提供给查询使用 2.是用来将数据库数据同步到缓存中,这样主要是为了减轻数据库读压力。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/181048.html原文链接:https://javaforall.cn