使用流水线向数据流作业中的Bigquery查询添加分页

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

Airflow Composer删除特定的xcom键

、

我正在通过Airflow并行编排多个数据流作业。流水线执行中的任务之一是推送唯一的xcom键来存储每个流水线的临时值，该临时值用于向Bigquery表中插入一个值。数据加载完成后，我需要清除特定的xcom密钥。我不想删除仍在并行运行的其他数据流作业可能生成的其他xcom键。它们是清除特定xcom密钥的<

浏览 3提问于2021-09-05得票数 0

1回答

、、

我使用以下代码在数据流中执行Bigquery查询其中'p‘是一个管道对象。当我执行一个返回大量行数的查询时，我的数据流作业给出了一个错误：“查询执行过程中超出了资源。”提前

浏览 22提问于2016-08-23得票数 0

回答已采纳

1回答

是否遇到从数据流管道到BigQuery的低速流式写入？

、、

在使用流式插入和Python SDK2.23写入BigQuery时，我遇到了意外的性能问题。在没有写入步骤的情况下，流水线在一个工作线程上运行，占用大约20-30%的CPU。添加BigQuery步骤，流水线可以扩展到6个工作进程，所有工作进程都占用70-90%的CPU。我对数据流和波束很陌生，可能这种行为很正常，或者我做错了什么，但在我看来，使用6台机器每秒向<

浏览 0提问于2020-09-09得票数 4

2回答

云存储新增文件时触发数据流作业

、、

我希望在向存储存储桶添加新文件时触发数据流作业，以便处理新数据并将新数据添加到BigQuery表中。我看到云通过存储桶中的更改来运行，但我还没有找到使用启动数据流作业的方法。有没有一种方法可以使用云函数来实现这一点，或者是否有其他方法来实现预期的结果(在将文件添加到存储存储桶时将新数据插入到BigQue

浏览 6提问于2016-04-02得票数 2

回答已采纳

1回答

google数据流写入bigquery表性能

我将处理数据和输出的性能与Bigquery表和文件进行了比较，差异是显著的：写入13个文件需要7分钟，写入13个bigquery表需要超过60分钟；

浏览 1提问于2015-04-17得票数 1

1回答

在Dataflow SQL中将流数据与动态BigQuery表连接

、

我有一个Dataflow SQL作业，它将流PubSub与BigQuery表连接起来，并将结果写入BigQuery表。当我将一个新记录(新sales_region)添加到我的表'us_state_salesregions‘中时，新的sales_region在结果表中是不可见的。只有在创建新的数据流作业后，新添加的sales_region

浏览 8提问于2021-05-11得票数 0

1回答

设置管道google数据流的优先级

、

我是谷歌数据流的新手。我有两个数据流流水线来执行两个不同的任务。一个是ETL处理并加载到Bigquery，另一个是从Bigquery读取以聚合报告。我想先运行管道ETL，在它完成后，将运行报告管道，以确保bigquery中的数据是最新的更新。我试着在一条管道上跑，但它不起作用。现在我必须先运行手动ETL，然后再运行报表管道。谁能给我一些建议，让我在一个管道中运行2个作业<

浏览 14提问于2017-08-11得票数 0

1回答

在作业中读取bigtable上的大型查询表花费的时间太长

、、、

我有一个数据流作业，它从bigquery表(在大表之上创建)读取。数据流作业是使用java中的自定义模板创建的。我需要处理bigquery的大约5亿条记录。我面临的问题甚至是读取100万条记录，大查询读取需要26分钟，数据流工作需要36分钟。在大查询中读取太慢。任何关于如何提高阅读性能的建议

浏览 10提问于2022-12-02得票数 1

3回答

触发DataPrep数据流作业的云函数

、

我有一个很小的流水线，我正在尝试执行：我已经通过Dataprep创建了一个数据流作业，因为它有很好的UI，可以在写入GCS表之前执行所有转换(写入BigQuery很好)，并且云函数会在文件上传到BigQuery存储桶时触发。然而，云函数不会触发数据流作业</em

浏览 64提问于2018-05-08得票数 1

回答已采纳

3回答

谷歌数据流每项作业是否有BT写原子？

也许我是个糟糕的探索者，但我在文档中找不到答案，所以我只想在这里试试运气。我知道写GCS似乎不是原子的，在作业运行的过程中会产生部分输出分区。但是，我已经尝试过通过数据流将数据转储

浏览 6提问于2016-08-05得票数 1

回答已采纳

1回答

我收到来自我的数据流作业的错误消息“查询超出了第1层的资源限制。需要第3层或更高层”

、

我从BigQuery查询数据的数据流作业失败，出现错误： Query exceeded resource limits for tier 1. Tier 3 or higher required.同样的Dataflow作业与我的另一个项目一起工作，我无法确定如何在Dataflow API中设置层。

浏览 0提问于2017-03-25得票数 0

1回答

Dataflow sql、Beam SQL (Zeta sql或方解石SQL)之间有什么区别？

、、、

在浏览时，我看到了Dataflow SQL。它和beamSQL有什么不同吗？

浏览 12提问于2020-02-17得票数 1

回答已采纳

1回答

当使用Dataflow SQL时，“SQL启动程序中的错误”意味着什么？

我尝试使用Dataflow SQL UI创建Dataflow作业。我跟踪了，工作运行正常。我将数据源更改为BigQuery表。我的计划是：这个错误意味着什么？谢谢你的帮忙!

浏览 2提问于2020-07-09得票数 0

回答已采纳

2回答

对于数据流，BigqueryIO.write()和bigquery.insertAll()方法哪个更好

、、、

我正在开发java代码，以便从GCS读取记录并插入到BQ表中，从成本和性能的角度来看，哪个BigqueryIO.write()或bigquery.insertAll()方法更好。

浏览 0提问于2019-03-05得票数 1

1回答

谷歌云数据流服务帐户没有传播给工人？

、、

我们有多个作业(用Java /Kotlin编写)，它们可以以两种不同的方式运行：当从用户帐户运行数据流作业时，Dataflow在我们的大多数Dataflow用例中，我们在项目A中运行Dataflow作业，而在项目B中从BigQuery中读取数据流<e

浏览 0提问于2018-12-05得票数 3

2回答

如何使用云运行python api从大查询表中读取大数据，系统配置应该是什么？

、、、、

我用python创建了一个flask api，并作为容器镜像部署在gcp云中运行，通过云调度器运行，在我的代码中，我从big query读取大数据(1500万行和20列)，我将系统配置设置为8gm ramquery = """ SELECT * FROM TABLE_SALES""" df = gbq.read_gbq(query), project_id="project_name") 有没有从BQ中读取数据的有效方法Problem2 :我

浏览 28提问于2021-10-04得票数 0

回答已采纳

3回答

如何对Bigquery查询的结果进行分页

根据pagination文档，您可以通过定义一个特定表来对结果进行分页。但是，向查询添加分页又如何呢？例如，如果我有以下查询： client = bigquery.Client(location='US') result = client.query(query

浏览 33提问于2019-05-10得票数 2

1回答

错误Bigquery/数据流“无法解析数据目录中的表”

、、、

我在数据流上做的工作遇到了麻烦。下面是上下文，我使用以下路径在bigquery上创建了一个数据集现在，我想在数据流上运行一个作业，然后在google中输入以下命令 gcloud数据流sql查询‘SELECT country，DATE_TRUNC(ORDERDATE，月份)，sum(sales) by 1,2’-<

浏览 1提问于2021-09-29得票数 1

2回答

如何实现动态BigQueryIO输入

、、

我正在使用谷歌数据流上的阿帕奇光束。我的流水线从BigQuery读取数据，但它依赖于执行参数。我应该能够用一个点(经度，纬度)和几个点来运行管道。只有一点，解决方案很简单:我可以将查询设置为ValueProvider。ST_GeogPoint(10.9765,50.4322), ) 问题是当我有超过1个点来为它们运行查询时我尝试在每个点上应用

浏览 16提问于2019-01-27得票数 0

回答已采纳

2回答

<-> -> BigQuery

、、、

我们正在开发处理日志数据的项目。我的想法是日志数据的结构经常会发生变化，这会导致一个错误，当插入到BigQuery.How时，我们要在python中处理它？我

浏览 5提问于2014-09-05得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Airflow Composer删除特定的xcom键