前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >《Streaming Systems》第一章导读

《Streaming Systems》第一章导读

作者头像
哒呵呵
发布2019-03-18 15:17:39
1.6K0
发布2019-03-18 15:17:39
举报
文章被收录于专栏:鸿的学习笔记

《Streaming Systems》作为去年的出版的关于实时计算的新书,主要探讨了Dataflow模型以及Streams和Tables之间的关系两块内容。趁着团队在集中精力建立实时计算框架以及应用到业务中,重新温习《Streaming Systems》,构建思维导图和导读笔记,以期对Spark 2.X和Flink有更好的理解。

《Streaming Systems》第一章分为三部分

  • 首先澄清了流(Stream)的概念,区分了有界数据集和无界数据集,重新定义了Stream和Table的关系,并从一个更高的角度认为,流处理实际是批处理的超集,也借此批评了Lambda架构给系统引入的复杂性。再之后流处理系统应该要处理的正确性(correctness)和时间推理工具(tools for reasoning about time)两个概念。
  • 梳理事件时间(event time)和处理时间(processing tim)两个实时计算过程中非常重要的概念,给出了两种不同的时间会给数据分析和处理带来的各种问题
  • 最后抽象出数据处理的共同模式,以及处理无界数据集所使用的四种方法:数据集与时间无关(time- agnostic),推测式(approximation),基于处理时间的窗口(windowing by processing time)和基于事件时间的窗口(windowing by event time)
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-03-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 鸿的笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
流计算 Oceanus
流计算 Oceanus 是大数据产品生态体系的实时化分析利器,是基于 Apache Flink 构建的企业级实时大数据分析平台,具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点。流计算 Oceanus 以实现企业数据价值最大化为目标,加速企业实时化数字化的建设进程。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档