在python中使用BigQuery接收器的流水线

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

从发布/订阅流到BigQuery

、、、、

我正在尝试使用python数据流将一些数据从google PubSub传输到BigQuery中。beam.io.BigQueryDisposition.CREATE_IF_NEEDED,注意:我已经被谷歌列入了运行代码的白名单( alpha)工作流失败。原因：(f215df7c8fcdbb00)：未知流<e

浏览 1提问于2017-09-07得票数 5

1回答

、、、

我正在构建一个apache波束流管道，它的源是Pubsub，目标是BigQuery。我收到了错误消息：这就是导致问题的原因，我说的对吗？或者，如果不是，它在任何情况下仍然不受支持？

浏览 11提问于2018-08-01得票数 1

回答已采纳

2回答

使用google-cloud-python库将堆栈驱动程序日志导出到BigQuery时的访问问题

、、、

我知道使用google-cloud-python库通过以下步骤将Stackdriver日志条目导出到BigQuery：所以我的问题是，有没有其他方法可以让堆栈驱动程序日志拥有对BigQuery的写访问权限来创建接收器？

浏览 2提问于2019-07-09得票数 0

1回答

如何从日志资源管理器中去复制GCP日志？

、

我正在使用GCP日志资源管理器存储来自管道的日志消息。我需要通过查看来自特定事件的日志来调试问题。除了末尾的事件ID外，此错误的消息是相同的。因此，例如，错误消息是我知道我可以使用以下语法来构造一个查询，该查询将返回具有此特定消息结构的日志s

浏览 8提问于2022-04-28得票数 1

回答已采纳

1回答

是否遇到从数据流管道到BigQuery的低速流式写入？

、、

在使用流式插入和Python SDK2.23写入BigQuery时，我遇到了意外的性能问题。在没有写入步骤的情况下，流水线在一个工作线程上运行，占用大约20-30%的CPU。添加BigQuery步骤，流水线可以扩展到6个工作进程，所有工作进程都占用70-90%的CPU。我对数据流和波束很陌生，可能这种行为很正常，或者我做错了什么，但在我看来，使用</em

浏览 0提问于2020-09-09得票数 4

1回答

数据流是否未显示流管道的输出集合计数？

、、

我有一个从Pubsub读取数据的流水线。我使用的是apache beam python sdk 2.10。我的管道包含不同的阶段。当我们使用ReadFromPubsub从pubsub读取数据时，我能够看到第一阶段的输入和输出集合计数。但在第二阶段中，仅显示输入采集计数，输出采集计数为空。在我的最后阶段，我正在给BigQuery写信。 ? ? ?

浏览 20提问于2019-03-06得票数 2

2回答

我们能安排StackDriver日志记录到导出日志吗？

、、

在同一页中也提到过，日志条目的大小限制为100 to。在StackDriver中是否有任何方法来安排类似于任务或Cron作业的任务或任务，以便在固定的时间间隔后将日志自动导出到Google存储中？大于100 to的日志条目发生了什么。我猜它们会被

浏览 1提问于2019-03-09得票数 2

回答已采纳

1回答

我对Flink相当陌生，在技术用例方面需要一些帮助。我有一个在GKE上运行的flink应用程序，并使用自定义接收器将记录(从Kafka源)写入BigQuery。我可以将记录写入BigQuery，而不会出现任何问题。目前，记录被一个接一个地写入接收器中，因此每个kafka消息都会得到自己对BigQuery的插入api调用，这并不理想，因为我们需要执行批量插入，并且单独插入每个记录将非常昂

浏览 5提问于2022-10-18得票数 2

回答已采纳

2回答

谷歌数据:每天加载多个小表

我想每天从SQL Server加载大约100个小表(最少5条记录，最多10000条记录)到谷歌BigQuery。我们已经创建了100个数据流水线，每个源表一个流水线。当我们启动一条流水线时，大约需要7分钟来执行。当然，它会启动DataProc，连接到SQL server，并将数据导入Google BigQuery。当我们必须按顺序运行时，需要700分钟吗？当我们尝试在流水线中并行运行时，我们受到网络范围的限制，可能是256/

浏览 42提问于2020-07-01得票数 1

2回答

每小时高效地将数据从数据存储区导入到BigQuery - Python

、、、

目前，我正在使用谷歌的两步法来备份数据存储，然后将其导入BigQuery。我还使用流水线检查了代码。这两种方法都效率不高，而且成本很高，因为每次都会导入所有数据。我只需要添加从上次导入添加的记录。什么才是正确的方法呢？有没有关于如何在python中做到这一点的工作示例？

浏览 0提问于2014-11-04得票数 1

1回答

将userId映射到其关联的电子邮件

当我在控制台中运行以下命令时，它将返回一个标题为"userId“的列(这是一个字段)。如何将此userId映射到其电子邮件地址或用户名？project-id)$ bq show \ projects/<XXX>/locations/europe/transferConfigs/<XXX> userID的返回值是一个19个字符的整数。这个问题的原因是，我们有大量的预

浏览 0提问于2019-12-05得票数 0

1回答

Google Cloud - creating sink

、、

我正在尝试使用云shell中的接收器将日志导出到bigquery中。我做了以下步骤: bq mk数据集 gcloud beta日志接收器创建my-bq- my_dataset \ bigquery.googleapis.com/projects/my-project/datasets/\ my_dataset --log-filter='resource.type="gce_instance&

浏览 12提问于2020-05-21得票数 0

2回答

BigQuery自动检测模式和创建表，在apache_beam中发生流作业时

、、、

我有一个信息流进来，想要将它们记录在BigQuery中，但问题是用户可以在启动apache_beam作业之前定义一个新的表名。此外，流中的架构可以更改超时。我想知道是否有人使用Python实现了流apache_beam作业的自动表创建和模式更改。

浏览 12提问于2022-09-27得票数 0

1回答

监控WriteToBigQuery

、、、

在我的管道中，我使用WriteToBigQuery，如下所示： 'thijs:thijsset.thijstable', beam.io.WriteToBigQuery PTransform返回一个字典，其BigQueryWriteFn.FAILED_ROWS条目包含所有未写入的行的当我完成管道并将结果存储在变量<

浏览 0提问于2019-11-29得票数 4

回答已采纳

1回答

使用自定义目标接收器将日志导出到BigQuery* (表分区)*

、、

我想创建一个“接收器”(日志记录服务)来将日志导出到BigQuery (分区表)。但是，我无法做到这一点，默认情况下，它正在创建一个碎片表。我使用的是“自定义目的地”，我在“接收器目的地”选项中使用的代码是： bigquery.googleapis.com/projects/miproyecto/datasets/dataset_organizationPD:我使用“自定义目标

浏览 0提问于2020-03-25得票数 1

1回答

不显示BigQuery源/接收器的数据流管道详细信息

、、

根据Google团队的这个，如果我们使用1.6SDK，我们应该能够在控制台中看到BigQuery源和接收器的详细信息。但是，虽然新的“管道选项”确实会显示出来，但是BigQuery源/接收器的细节不会显示。我们的管道正在批处理模式下运行。供参考的工作id是：2016-06-23_04_38_00-7749718775594891108 如何显示BigQuery</

浏览 4提问于2016-06-24得票数 0

回答已采纳

1回答

Google Cloud数据流中的自动缩放

、

通常，一个工作进程足以处理传入的数据，但如果有积压，我们希望自动增加工作进程的数量。我们的流水线从Pubsub读取数据，并每3分钟使用加载作业将批处理写入BigQuery。我们从一个worker开始运行此管道，向pubsub发布的数据是一个worker消耗的数据的两倍。2小时后，自动伸缩仍然没有生效，因此积压的数据大约是1小时的数据。这似乎相当糟糕，因为自动伸缩的目标是将积压保持

浏览 0提问于2018-06-29得票数 7

2回答

如何用BigQuery测试数据流流水线

我想测试一下我的管道。我的管道从BigQuery中提取数据，然后将数据存储到GCS和S3中。虽然这里有一些关于流水线测试的信息，，但它没有包括从BigQuery中提取数据的数据模型。有没有好的文档来测试我的流水线？

浏览 15提问于2017-01-25得票数 1

回答已采纳

1回答

日志接收器到bigquery的分区不起作用

、、

我在文件夹级别创建了一个日志接收器，因此它可以将所有日志整齐地流式传输到Bigquery。在日志接收器配置中，我指定了以下选项，以便让日志接收器流到(每日)分区： "bigqueryOptions": { "usesTimestampColumnPartitioning": true # output only } 根据bigquery

浏览 19提问于2020-04-28得票数 0

2回答

GCP日志记录库不导出

、、、

问题:我已经在GCP日志记录中创建了一个BigQuery接收器，但是没有数据被导出到BigQuery表中。我可以在GCP日志记录中的“Logging”选项卡中看到创建的接收器。此外，我可以在BigQuery中看到相应的数据集和表。我还检查了相应的服务帐户是否有足够的权限。它具有"BigQue

浏览 9提问于2020-09-01得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

从发布/订阅流到BigQuery