首先澄清了流(Stream)的概念,区分了有界数据集和无界数据集,重新定义了Stream和Table的关系,并从一个更高的角度认为,流处理实际是批处理的超集,也借此批评了Lambda架构给系统引入的复杂性。再之后流处理系统应该要处理的正确性(correctness)和时间推理工具(tools for reasoning about time)两个概念。
最后抽象出数据处理的共同模式,以及处理无界数据集所使用的四种方法:数据集与时间无关(time-
agnostic),推测式(approximation),基于处理时间的窗口(windowing by processing time)和基于事件时间的窗口(windowing by event time)