加载操作中出现GCP Bigquery错误:缺少字节

文章/答案/技术大牛

发布

2回答

、、、

我是Google Cloud Platform的新手，我正尝试在bigquery中使用GCP存储桶中存储的大约60,000个csv.gz文件创建一个表。为此，我打开了Cloud Shell，并尝试执行以下操作： $ bq --location=US mk my_data load --null_marker='' \ my_data.my_table gs:&#x

浏览 23提问于2020-10-15得票数 0

回答已采纳

2回答

以预定义的顺序运行多个云sql和bigquery查询的选项有哪些

、

我需要在GCP BigQuery和GCP CloudSql之间执行定期数据清除和数据加载操作。这涉及到在GCP BigQuery和GCP cloud SQL中以预定的顺序运行多个查询，并在后续查询中使用早期查询的查询结果。这是很好的，因为在gcp cloud SQL数据库中触发“只读”查询，并在gcp BiqQuery中运行多个查询。但是，由于我的操作</

浏览 2提问于2021-03-02得票数 0

1回答

我正在开发一个数据流管道，它正在从谷歌云存储读取协议的文件，并解析它，并试图写入到BigQuery表。当不是时，它工作得很好。行的大小约为20k，但如果不是。行数约为200k，则失败。每次它停留在GroupByKey阶段，并给出以下错误： Error message from worker: java.lang.RuntimeException: Failed to create joborg.apache.beam.sdk.io.gcp.bigquery.BigQueryHelpers$PendingJob.runJob

浏览 21提问于2021-10-28得票数 0

1回答

在bigquery中插入RFC3339字符串时出错

、、、

我遵循datetime字符串2020-03-30T16:26:37-04:00，当我尝试在bigquery中插入它时(我将string对象作为json对象的一部分发送)，我会得到错误我从pubsub接收作为字节流的消息。我有一个解码器，它将字节流

浏览 5提问于2020-03-30得票数 0

回答已采纳

2回答

AssertionError: INTERNAL:未指定默认项目

、、

尝试运行sql并将结果存储在BigQuery表中。请帮帮我。错误： File "/usr/local/bin/airflow", line 28, in <module> File "/u

浏览 12提问于2017-08-11得票数 4

回答已采纳

1回答

ValueError:必须用beam.io.gcp.bigquery.ReadFromBigQuery指定BigQuery表或查询

、、、、

我试图传递一个BigQuery表名作为apache管道模板的值提供程序。根据和这个，可以将值提供程序传递给apache_beam.io.gcp.bigquery.ReadFromBigQuery。pipeline_options) (p | 'Read from BQ Table' >> beam.io.gcp.bigquery.ReadFromBigQuery不可能

浏览 3提问于2021-07-14得票数 1

2回答

如何使用BigQuery处理数据流管道中的插入错误？

、、、、

我正在尝试用Dataflow创建一个流管道，它从PubSub主题中读取消息，最终将它们写入BigQuery表中。我不想使用任何数据流模板。目前，我只想在从Google实例执行的Python3脚本中创建一个管道，以执行来自Pubsub的每条消息的加载和转换过程(解析其中包含的记录并添加一个新字段)，最终将结果写入BigQuery表。那么记录的结构(字典中的Python)和字段的数据类型就是BigQuery表所期望的。我想要处理的问题是：如果有些消息带有意外的结构，我

浏览 0提问于2019-11-14得票数 3

回答已采纳

1回答

在数据流中使用BigQuery* beam api向Streaming_insert插入记录时请求大小错误*

、、、、

我创建了一个google流作业，从PubSub读取并插入到BigQuery中。我使用JSON将STREAMING_INSERT数据插入到BiqQuery表中。数据流错误如下所示。根据我的理解，每个记录的大小是1-2Mb，根据我的理解，数据流作业将流数据插入到微批处理中，这导致了这一错误。你能不能给我一些解决办法。来自worker的错误消息: java.lang.RuntimeException:我们观察到一行大小为24625273字节。Big

浏览 6提问于2022-10-13得票数 0

回答已采纳

1回答

将气流(1.10.5版)与Bigquery连接起来

、、、

为此，我添加了以下连接变量："conn_id": "bigquery_default","extra": { "extra__google_cloud_platform__project" : "project-name-here"} 这给了我一个错误，当我试

浏览 2提问于2021-01-19得票数 0

1回答

无法将数据加载到BigQuery* US数据集中，但可以加载到东亚数据集中*

、、

所以问题是，我无法将数据加载到位于美国位置的数据集'dw‘中的GCP BigQuery。然而，我能够加载东亚位置的数据。我正在尝试使用NiFi摄取工具将数据加载到数据集'dw‘(美国位置)中的分区表中，但没有出现错误，也没有加载任何数据。我甚至尝试过从BigQuery编辑器手动插入，不幸的是没有错误，也没有数据插入到dw.aes_mapdata

浏览 5提问于2021-02-05得票数 0

1回答

获取令牌:从元数据服务器获取访问令牌时出错: http://169.254.169.254/computeMetadata/v1/instance/ java.io.IOException

、、

我可以使用gcs-connector和spark- Bigquery -in Spark应用程序从bigquery获取数据。但是在尝试使用spark应用程序将数据加载到GCP中的Bigquery时出现以下错误。server at: http://169.254.169.254/computeMetadata/v1/instance/service-accounts/default&#

浏览 0提问于2021-07-29得票数 1

2回答

用TableRowJsonCoder将PubSub消息转换成TableRow

、、、、

我使用Dataflow 1.9 (JAVA )读取Pubsub消息和无缝流到BigQuery中，而不显式地设置TableRow中的每个列。下面是转换的代码片段。当我试图在Apache中模拟同样的情况时，我无法为一个TableRowJsonCoder消息设置PubSub，因为Beam的PubSubIO缺少方法withCoder()。在Beam中，我尝试了下面的setCoder()，但是得到了编译错误。我甚至尝试过PubsubIO.readStrings，但是错误<

浏览 3提问于2017-08-08得票数 2

1回答

如何在BigQuery中最大限度地减少每次执行SQL查询的成本

、、

我是BigQuery和GCP的新手。我正在使用BigQuery中可用的(大型)公共数据集，运行一个SQL查询--它基于一个简单的where子句从dataset中的一个表中选择一组数据。然后，我将对获得的数据执行额外的操作。我只需要每月运行一次这个查询，其他操作就需要更频繁地运行(每小时)。我的问题是，每次我这样做，都会导致BigQuery处理4+百万行数据，而运行这个查询的成本对我来说是快速增加的。有没有方法可以运行SQL查询并将数据导出到GC

浏览 3提问于2019-12-30得票数 2

回答已采纳

1回答

BigQuery中的DML操作(定价、每日限制和最佳实践)

这与BigQuery中的DML操作有关(更新和删除)。经过几次查询后，我们将面临配额超出错误的情况。因为我们计划在脚本中使用“更新和删除操作”。检查了DML操作的处理成本的支持文档，但没有得到价格。(https://cloud.google.com/bigquery/pricing)更新和删除操作的数据处理成本是多少？您会建议在大查询中经常使用“更新和删除”操作吗?还是有其他有效和成本效益高的方

浏览 0提问于2018-09-19得票数 0

1回答

未知BigQuery* Google Ads数据传输服务错误:非经理帐户不存在(或帐户处于非活动状态)，因此数据将不会导入*

、、

我刚刚尝试为BigQuery设置谷歌广告数据传输服务。我按照here的指示操作，我的帐户在GCP项目和Google Ads帐户中都有必要的权限。结果是出现一条错误消息，显示为Non-manager account doesn't exist (or account is not active), so data will not be imported此错误消息是什么?如何修复此错误？

浏览 11提问于2019-05-28得票数 0

1回答

当输出为BigQuery时，Dataprep -数据流失败

、、

不幸的是，该作业失败并出现错误： java.lang.RuntimeException: Failed to create job with prefix beam_load_[thenameofthejobat org.apache.beam.sdk.io.gcp.bigquery.BigQueryHelpers$PendingJob.runJob(BigQueryHelpers.java:196)at org.apache.beam.sdk.io.gcp.bigquery.BigQu

浏览 1提问于2019-08-21得票数 1

1回答

在数据流中创建新的BigQuery数据集

、、

如何在数据流中创建新的BigQuery数据集以将数据保存在？我希望dataset名称使用dataflow程序中的version标记进行版本化。我正在使用python，并尝试使用BigQuery客户机在beam.io.BigQuerySink之外执行此操作，但是在gcp上运行流时，我会得到以下错误：ImportError: No modulenamed cloud，它引用了bigquery from google.cloud import bi

浏览 5提问于2017-03-13得票数 0

回答已采纳

2回答

缺少的airline_ontime_data和weather_geo (应该在样本下面)在BigQuery中的哪里？

我刚刚开始学习GCP，可以告诉我如何将特定的公共数据集加载到bigquery中，例如airline_ontime_data、weather_geo等吗？如下所示：更新但是，在我5分钟后回来后，一些数据集出现在bigquery-sample

浏览 1提问于2020-01-12得票数 1

回答已采纳

1回答

如何在将数据加载到BigQuery中时识别错误

、

在将一个约5 GB、约4100万行的文件导入BigQuery时，我收到以下错误消息：File: 0 / Offset:4026531933 / Line:604836 / Field:我的问题是:如何使用上述错误消息中的偏移/行信息来确定违规记录的行号？

浏览 0提问于2014-03-01得票数 2

1回答

BigQuery数据传输-命令行不支持的位置，但在GCP UI中工作。

、

我能够在GCP UI中创建数据传输，从europe-west3位置的桶到位于europe-west3区域的BigQuery数据集。当我试图对bq mk --transfer_config ...命令执行同样的操作时，会得到一个错误： BigQuery error in mk operation: BigQuery Data Transfer

浏览 3提问于2020-07-01得票数 2

回答已采纳

点击加载更多