我有一些关于Composer和BigQuery的问题。我们需要导入并创建一个自动流程,以便将表从BigQuery导出到存储。我现在有四个选择:
我有一些想法,与前三个选项的想法。如果表很大,是否有机会消耗Composer的大部分资源?我一直在搜索bashoperator和bigquery操作符是否消耗了Composer的一些资源。总是认为,这一过程将在未来的生产和更多的达格运行在同一时间。如果是这样的话,Dataflow将是一个更方便的选择吗?
数据流的一种很好的方法是,如果我们需要的话,我们可以只在一个文件中导出表,如果表大于1GB,其他选项是不可能的。
发布于 2019-09-30 16:18:10
BigQuery本身具有将数据导出到GCS的功能。这意味着,如果您使用您提到的任何内容(除了Dataflow作业),您只需触发将由BigQuery执行和管理的导出作业。
这意味着您不需要担心Composer中集群资源的消耗。bigquery_to_gcs操作符只是指示BigQuery执行导出的控制器。
因此,从您提到的选项中: bigquery_to_gcs运算符、BashOperator和Python将产生类似的低成本。只要你觉得更容易管理就用。
https://stackoverflow.com/questions/58176477
复制