我正在分析流数据(网络事件)。
有什么好的经验法则可以帮我确定我是否应该
或
查看文档中的示例和本文中的https://cloud.google.com/dataflow/blog/dataflow-beam-and-spark-comparison
经典的批处理编程,每小时的团队评分,所有时间的用户评分,用户行为分析都觉得它们很容易通过SQL创建(给定的"created"和"write"时间戳被记录下来)。
垃圾邮件过滤的例子,我可以看到,如果这应用在每个事件流的基础上使用BQ的限制)。
Dataflow的语义似乎在GroupBy、联接、合并、窗口化以及BQ支持以秒为单位的流插入方面重叠,短得足以支持小时级聚合。
有什么基本的东西我还不明白吗?或者,是否有一种情况,流到BigQuery,然后查询将开始变得不可靠?
谢谢
克里斯
(如果这个问题有点含糊不清的话,很抱歉--很高兴被转到一个更好的地方去问)
发布于 2016-02-05 06:25:21
是否选择在数据流中执行分组和聚合,还是使用BigQuery操作(在使用数据流摄取数据之后)取决于应用程序逻辑和消耗输出的内容。例如,会话和滑动窗口都很难用SQL表示;而Dataflow则支持任意处理,如触发估计。另一件需要考虑的事情是,使用命令式编程语言来表示计算逻辑可能比使用SQL更容易。
发布于 2016-02-04 19:37:04
下面,不一定要回答你的确切问题,而是添加另一个需要考虑的方面:
https://stackoverflow.com/questions/35209151
复制相似问题