首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >数据流和大查询中的窗口函数

数据流和大查询中的窗口函数
EN

Stack Overflow用户
提问于 2016-02-04 18:46:58
回答 2查看 1.1K关注 0票数 0

我正在分析流数据(网络事件)。

有什么好的经验法则可以帮我确定我是否应该

  1. 在数据流中执行分组和聚合并写入输出

  1. 使用Dataflow流到Big Query中,并可能使用范围修饰器限制数据/通过SQL为分区和聚合使用窗口函数。

查看文档中的示例和本文中的https://cloud.google.com/dataflow/blog/dataflow-beam-and-spark-comparison

经典的批处理编程,每小时的团队评分,所有时间的用户评分,用户行为分析都觉得它们很容易通过SQL创建(给定的"created""write"时间戳被记录下来)。

垃圾邮件过滤的例子,我可以看到,如果这应用在每个事件流的基础上使用BQ的限制)。

Dataflow的语义似乎在GroupBy、联接、合并、窗口化以及BQ支持以秒为单位的流插入方面重叠,短得足以支持小时级聚合。

有什么基本的东西我还不明白吗?或者,是否有一种情况,流到BigQuery,然后查询将开始变得不可靠?

谢谢

克里斯

(如果这个问题有点含糊不清的话,很抱歉--很高兴被转到一个更好的地方去问)

EN

回答 2

Stack Overflow用户

发布于 2016-02-05 06:25:21

是否选择在数据流中执行分组和聚合,还是使用BigQuery操作(在使用数据流摄取数据之后)取决于应用程序逻辑和消耗输出的内容。例如,会话和滑动窗口都很难用SQL表示;而Dataflow则支持任意处理,如触发估计。另一件需要考虑的事情是,使用命令式编程语言来表示计算逻辑可能比使用SQL更容易。

票数 3
EN

Stack Overflow用户

发布于 2016-02-04 19:37:04

下面,不一定要回答你的确切问题,而是添加另一个需要考虑的方面:

  1. 如果您正在构建为您的基础设施提供动力的流程,那么数据流可能是一个不错的选择。当然,你需要你的技术团队资源。
  2. 如果您计划让非技术人员从事广告活动和自助活动(当然,这里也不排除技术人员),那么您可以集中精力使用BigQuery的查询功能(包括窗口功能),并确保您有好的实际工作示例,您的公司其他成员可以使用这些示例作为模板,开始利用BigQuery和GCP的一般功能。这证明了很好的效果!领域专家现在可以自己回答他们的问题(就像你在你的问题中登记的那样),他们中间有技术人员。在这种情况下,质量和时机要好得多!
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/35209151

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档