GCP Dataflow -如何使用数据流从Google BigQuery读取数据并加载到Google Spanner

文章/答案/技术大牛

发布

1回答

、、、

问题陈述是从谷歌BigQuery中加载谷歌扳手数据，BigQuery表的大小很大，我们需要提出有效的解决方案我试着探索各种选择，但没有得到解决方案

浏览 14提问于2019-09-04得票数 1

1回答

数据流作业中的EOFException正在写入扳手

、、

我有一个相当简单的数据流作业，它从BigQuery读取并写入到一个扳手实例。大约有580M行和1.36 it的数据已经被分区，但是在写入大约3500个之后，它失败了。 at org.apache.beam.sdk

浏览 3提问于2018-07-26得票数 2

1回答

从谷歌扳手中提取数据到BigQuery进行数据数据分析？

将云扳手中的数据提取到BigQuery进行数据分析的最佳方法是什么？谢谢

浏览 2提问于2018-10-18得票数 2

2回答

GCP:设置从扳手到大查询的周期性数据管道的最佳选择是什么？

、、、

任务：我们必须设置从扳手到大查询的记录的定期同步。我们的扳手数据库有一个关系表层次结构。选项考虑了，我正在考虑使用Dataflow模板来设置这个数据管道。Option1:使用Dataflow模板“”设置作业，然后用Dataflow模板“”设置另一个作业。Con:第一个模板只在一个表上工作，我们有许多表要导出。Option2:使用“”模板导出整个数据库。Con:我只需要在数据库中导出选定的表，并且没

浏览 4提问于2019-05-28得票数 1

回答已采纳

1回答

使用python处理来自bigquery的大型数据集，将其加载回bigquery表

、、、

我在bigquery中有一个巨大的数据集，有5000万行和57列。我想做很多过滤/转换/清理，而不是使用sql。我尝试使用dask/panda/python将数据加载到本地mac的dask数据帧中，进行转换，然后将数据推送回bigquery，以便其他总线可以使用它。将数据推送回bigquery需要超过3个小时。

浏览 2提问于2019-03-30得票数 0

3回答

使用Google Big Query进行弹性搜索

、

我将事件日志加载到elasticsearch引擎中，并使用Kibana将其可视化。我的事件日志实际上存储在Google Big Query表中。目前，我正在将json文件转储到Google存储桶中，并将其下载到本地驱动器。然后使用logstash将json文件从本地驱动器移动到elastic搜索引擎。现在，我正试图通过在google大查询和弹性搜索之间建立联系来自动化这个过程。根据我所读到的，我了解到有一个输出连接器，它将来自elas

浏览 4提问于2016-08-31得票数 7

1回答

在数据流中创建新的BigQuery数据集

、、

如何在数据流中创建新的BigQuery数据集以将数据保存在？我希望dataset名称使用dataflow程序中的version标记进行版本化。我正在使用python，并尝试使用BigQuery客户机在beam.io.BigQuerySink之外执行此操作，但是在gcp上运行流时，我会得到以下错误：ImportError: No modulenamed cloud，它引用了

浏览 5提问于2017-03-13得票数 0

回答已采纳

3回答

从BigQuery读取时带有数据流的Apache光束-空指针

、、

我正在运行一个作业的谷歌数据流编写的阿帕奇光束，从BigQuery表和文件读取。转换数据并将其写入其他BigQuery表。作业“通常”会成功，但有时当我从大型查询表中读取数据时，会随机得到空指针异常，并且作业会失败：atorg.apache.beam.sdk.io.gcp.bigquery.Big

浏览 0提问于2017-06-23得票数 2

2回答

如何使用云运行python api从大查询表中读取大数据，系统配置应该是什么？

、、、、

我用python创建了一个flask api，并作为容器镜像部署在gcp云中运行，通过云调度器运行，在我的代码中，我从big query读取大数据(1500万行和20列)，我将系统配置设置为8gm ramproblem1:读取时间太长(读取数据需要2200秒) import numpy as npfrom pandas.io import gbq query =""" SELECT * FROM T

浏览 28提问于2021-10-04得票数 0

回答已采纳

3回答

无法写入bigquery -权限被拒绝: Google

、、、

我使用使用google云数据流服务已经有一段时间了。数据流管道写到Google大查询。今天，当我启动数据流作业时，管道启动，从数据存储读取数据，处理它，当它准备将它写入bigquery时，它

浏览 0提问于2018-05-07得票数 4

2回答

写入BigQuery时处理卡住

、、

我正在使用云数据流将数据从发布/订阅消息导入到BigQuery表中。我使用DynamicDestinations，因为这些消息可以放入不同的表中。我最近注意到，该进程开始消耗所有资源，并显示以下消息： Processing stuck in step Write Avros to BigQuery Table/StreamingInserts/StreamingWriteTables(StreamingWriteFn.ja

浏览 4提问于2019-02-16得票数 4

1回答

允许数据流读取指向驱动器的BigQuery表吗？

、、

BigQuery可以作为联邦源从Google读取。见。我希望能够将BigQuery中的表读入指向驱动文档的数据流管道。将BigQuery连接到驱动器中的文件非常好：但是，当我尝试将该表读入数据流管道时，我(可以理解)得到以下错误： BigQueryIO.Read.fromQuery(&

浏览 0提问于2016-06-16得票数 8

回答已采纳

1回答

google cloud dataflow从压缩数据中读取数据

我正在尝试使用google cloud dataflow从GCS中读取数据并加载到BigQuery表中，但是GCS中的文件是压缩的(Gzip)，有没有类可以用来从压缩/gzip文件中读取数据？

浏览 1提问于2015-02-07得票数 2

3回答

使用数据流与Cloud Composer

、、、

我想要澄清一下Cloud Dataflow或Cloud Composer是不是适合这项工作的工具，而我在Google文档中并不清楚。目前，我正在使用Cloud Dataflow读取非标准的csv文件--执行一些基本处理--并将其加载到BigQuery中。让我举一个非常基本的例子：type\x01datecar\x0111/9/1889 我们从这个文件中检测模式<em

浏览 2提问于2019-01-12得票数 13

1回答

DataFlow工作者BigQuery权限错误

、

我一直试图在我的项目中执行Dataflow管道(Python)，其中我的GCP帐户分配了"Owner“角色。最后，将结果数据加载到GCS中。根据我的理解，Dataflow工作者使用默认的计算引擎服务account(-compute@developer.gserviceaccount.com

浏览 1提问于2021-08-20得票数 0

2回答

从HTTP请求API拉取数据到Google* Cloud*

、、、、

我有一个应用程序，从API发送数据给我。数据是半结构化的(json数据) 我想把这个数据发送到Google Big Query，以便储存所有的信息。但是，我不知道如何才能正确地做到这一点。到目前为止，我已经在自己的服务器上使用Node通过POST请求获取数据。你能帮帮我吗？特纳克。

浏览 17提问于2019-10-15得票数 0

3回答

卡夫卡到谷歌云平台数据流的摄取

、、

可以将来自主题的Kafka数据流、消费和摄入到BigQuery/Cloud存储中的选项有哪些。GCP附带了基于模型的Dataflow。是否建议对传入数据执行实时转换的方法是将KafkaIO用于束管道？可以将Kafka数据推送到云发布子中，然后放到BigQuery表中。卡夫卡流/火花作业，将被排除在GCP之外，也可以使用。如果数据完全托管在(GCP)上，那么在设计决策过

浏览 1提问于2019-01-07得票数 3

回答已采纳

2回答

如何使用python自动更新google大查询中的数据？

、、

我的舞台：使用python (IDE:Spyder)Pull数据连接到MySql数据库，使用python将dataframeConnect转换为Google，使用python将数据写入GoogleBigQuery因此，当我想更新数据时，我删除google大查询中的表，然后再次运行python代码。现在我想自动更新数据。使用python可以做到这一点吗？

浏览 16提问于2021-07-01得票数 0

1回答

谷歌云数据流服务帐户没有传播给工人？

、、

我们有多个作业(用Java /Kotlin编写)，它们可以以两种不同的方式运行：当从用户帐户运行数据流作业时，Dataflow当从服务帐户运行Dataflow作业时，我设想使用设置的服务帐户将被传播到Dataflow在后台使用的辅助VM。没有提到任何这一点，但是他们确实提到了凭据用于对GCP</

浏览 0提问于2018-12-05得票数 3

1回答

BigQuery手动加载，但不是通过Java加载。

、、

我有一条数据流管道，在本地运行。目的是使用TEXTIO读取JSON文件，进行会话并将其加载到BigQuery中。根据这种结构，我必须在GCS中创建一个临时目录，然后使用该目录将其加载到BigQuery中。以前，我有一个数据模式错误，无法加载数据，请参阅。这个问题已经解决了。Exception in thread "main" com.google.cloud.datafl

浏览 0提问于2016-12-31得票数 0

回答已采纳

点击加载更多