首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    11 Confluent_Kafka权威指南 第十一章:流计算

    kafka 传统上被视为一个强大的消息总线,能够处理事件流,但是不具备对数据的处理和转换能力。kafka可靠的流处理能力,使其成为流处理系统的完美数据源,Apache Storm,Apache Spark streams,Apache Flink,Apache samza 的流处理系统都是基于kafka构建的,而kafka通常是它们唯一可靠的数据源。 行业分析师有时候声称,所有这些流处理系统就像已存在了近20年的复杂事件处理系统一样。我们认为流处理变得更加流行是因为它是在kafka之后创建的,因此可以使用kafka做为一个可靠的事件流处理源。日益流行的apache kafka,首先做为一个简单的消息总线,后来做为一个数据集成系统,许多公司都有一个系统包含许多有趣的流数据,存储了大量的具有时间和具有时许性的等待流处理框架处理的数据。换句话说,在数据库发明之前,数据处理明显更加困难,流处理由于缺乏流处理平台而受到阻碍。 从版本0.10.0开始,kafka不仅仅为每个流行的流处理框架提供了更可靠的数据来源。现在kafka包含了一个强大的流处理数据库作为其客户端集合的一部分。这允许开发者在自己的应用程序中消费,处理和生成事件,而不以来于外部处理框架。 在本章开始,我们将解释流处理的含义,因为这个术语经常被误解,然后讨论流处理的一些基本概念和所有流处理系统所共有的设计模式。然后我们将深入讨论Apache kafka的流处理库,它的目标和架构。我们将给出一个如何使用kafka流计算股票价格移动平均值的小例子。然后我们将讨论其他好的流处理的例子,并通过提供一些标准来结束本章。当你选择在apache中使用哪个流处理框架时可以根据这些标准进行权衡。本章简要介绍流处理,不会涉及kafka中流的每一个特性。也不会尝试讨论和比较现有的每一个流处理框架,这些主题值得写成整本书,或者几本书。

    02

    微服务的最终一致性与事件流

    微服务是指一个个单个小型业务功能的服务,由于各个微服务开发部署都是独立的,因此微服务天然是分布式的,因此,分布式系统的设计问题如CAP定理同样适合微服务架构,虽然微服务本身是无状态的,但是微服务是需要管理状态的。这些状态是指领域模型的状态或存储在自己的专有数据库中。 虽然我们使用微服务必须面对分布式系统,但是好的一方面是有很多关于如何建立复杂分布式系统的成熟模式和最佳实践。 典型的问题是微服务之间如果需要共享状态怎么办?实际是在分布式节点之间需要共享或复制状态。关于共享状态有几个解决方案: 1.微服务之间通过共享同一个数据库实现状态共享,但是因为微服务是使用自己专用的数据库,因此,数据库共享方案在微服务中是不适用的,违背了微服务架构宗旨。 2.通过调用同一个微服务实现状态共享,比如A服务和B服务需要共享C数据状态,而C数据状态是由C服务管理的,那么,A服务和B服务共同调用C服务不就是获得同一个C状态吗? 但是考虑到分布式系统下,A服务和B服务可能不在同一个节点服务器上,或者不同Docker VM中,那么服务之间调用就需要网络通讯,通常RPC是一种通过网络调用远程服务器上其他服务的同步方式,但是,RPC虽然将网络编程藏起来,其实藏是藏不住,结果造成抽象泄漏了。 "Asynch message-passing makes constraints of network programming firstclass instead of hiding them behind the RPC leaky abstraction"异步消息传递使得网络编程变成第一公民(显式),而不是像RPC隐藏了网络编程却造成抽象泄漏。 在分布式系统中使用异步消息必然会遭遇最终一致性。甚至可以说微服务是使用最终一致性的(microservices use eventual consistency) 最终一致性Eventual Consistency 最终一致性是一种用于描述在分布式系统中数据的操作模型,在分布式系统中状态是被复制然后跨网络多节点保存,其实在关系数据库集群中,最终一致性被用来在集群多个节点之间协调数据复制的写操作,数据库集群中这种写操作挑战是:各个节点接受到的写操作必须严格按照复制的次序进行,这个次序是有时间损耗的,从这个角度看,数据库在集群节点之间的这种状态复制还是可以被认为是一种最终一致性,所有节点状态在未来某个时刻最终汇聚到一个一致性状态,也就是说,最终达成状态一致性。 当构建微服务时,最终一致性是开发者 DBA和架构师频繁打交道的问题,当开始在分布式系统中进行状态处理时,头疼问题更加严重。核心问题是: 如何在保证数据一致性基础上保证高可用性呢? 事务日志 几乎所有数据库都支持高可用性集群,大多数数据库对系统一致性模型提供一个易于理解的方式,保证强一致性模型的安全方式是维持数据库事务操作的有序日志,理论上理由非常简单,一个事务日志是一系列数据更新操作的动作有序记录集合,当其他节点从主节点获得这个事务日志时,能够按照这种有序动作集合重新播放这些操作,从而更新自己所在节点的数据库状态,当这个事务日志完成后,次节点的状态最终会和主节点状态一致。 这种事务日志非常类似于财务中记账模型,或者类似银行储蓄卡打印出来的流水账,哪天存入一笔钞票(更新操作),哪天又提取了一笔钞票(更新操作),最后当前余额是多少(代表数据库当前状态)。 Event Sourcing Event sourcing事件溯源是借鉴数据库事务日志的一种数据持久方式,在ES中,事务单元变得更细粒度,使用一系列有序的事件来代表存储在数据库中的领域模型状态,一旦一个事件被加入事件日志,它就不能被移走或重新排序,事件被认为是不可变的,事件序列只能被追加方式存储。 因为微服务将系统切分成一个个松耦合的小系统,每个系统后面都独占自己的数据库,虽然,微服务是无态的,但是它需要操作自己数据库的状态,如何保证微服务之间操作数据库数据的一致性成了微服务实践中重要问题,使用ES能够帮助我们实现这点。 聚合可以被认为是产生任何对象的一致性状态,它提供校订方法用来进行重播产生对象中状态变化的历史。它能使用事件流提供分析数据许多必要输入,能够采取补偿方式对不一致应用状态实现事件回滚。 事件流共享 我们在微服务之间相互调用中通过引入异步机制,如果不同微服务之间存在共享的状态,或者说需要访问其他微服务的专用数据库,那么我们无需将本来专有的数据库共享出来,也无需在服务层使用2PC+RPC进行性能很慢的跨机同步调用,而是将改变这些共享状态的事件保存并共享,将领域事件以事务日志的方式记录下来,保存在一个统一的存储库,现在EventSourcing标准的存储库是 Apache Kafka。 也就是说,微服务之间共享的不是传统数据库,而是Apache Kafka,通过读取ES的事务日志和重新播放,我们可以得到任何时

    03
    领券