使用数据流将数据从数据存储区迁移到Bigquery

文章/答案/技术大牛

发布

3回答

如何从云数据存储迁移到云Spanner？

、、、

我正在查看数据流，以尝试将数据从Datastore导出到Spanner。扳手似乎只接受通过数据流连接器的avro文件。我能找到的唯一数据流模板是从数据存储到文本文件。并且数据存储区导出服务仅导出为levelDB格式。任何线索都会很有帮助，谢谢！

浏览 59提问于2019-05-03得票数 0

回答已采纳

1回答

、、、

我正在尝试编写一个数据流管道，使用Python将数据从google Datastore迁移到BigQuery。经过一番搜索后，我认为我需要做三个步骤： 1.我将ReadFromDatastore的输出写到一个文本文件中，json如下所示： key { project_id: "ProjectID" pathProjectID" path {

浏览 17提问于2019-06-03得票数 0

1回答

如何在Airflow "DataflowTemplateOperator()“中覆盖(而不是追加)目的表中的数据？

、、

我使用Airflow DataflowTemplateOperator()将数据从Mssql迁移到Bigquery，使用JDBC to Bigquery数据流模板。默认情况下，它会将数据追加到目标Bigquery表中。是否有默认参数可将数据流/ DataflowTemplateOperator设置从追加更改为覆盖？

浏览 2提问于2020-12-02得票数 0

1回答

-> Bigquery ->每日导出到IBM云存储

、、

我们已经启用GA 360导出到Bigquery，每天创建一个新表。为了进一步处理，我们需要将每日导出转移到IBM云对象存储。最简单的解决办法是使用CLI -bq extract( b)将摘录移动到IBM对象存储中。gsutil cp1)我们能否在两者之间跳过google云存储，并且是否可以直接导出到IBM？ 2)我们以前从未使用

浏览 0提问于2019-09-05得票数 2

回答已采纳

1回答

数据流作业无法写入不同区域中的BigQuery数据集，即使区域设置为bigquery区域

、、

我们正在编写一个数据流作业，将数据从存储桶中的JSON写入到BigQuery数据集。存储桶和BigQuery数据集都位于区域X中。但是，在区域X中无法使用数据流端点。最近的区域是Y。因此，我已经将Dataflow作业区域设置为Y，但区域设置为X。因此，所有的计算实例都是在区域X中旋转的。但是，数据流作业仍然失败，错误如下：无法在不同位置读写:

浏览 4提问于2020-03-05得票数 0

2回答

流缓冲区- Google BigQuery

、、

我正在开发一个python程序，以像Google模板一样使用。我正在做的是用BigQuery从PubSub编写数据： p = beam.Pipeline#<Transformation code if needed> | 'String To BigQuery Row' >> beam.M

浏览 0提问于2018-11-05得票数 0

回答已采纳

2回答

从本地磁盘将数据加载到BigQuery和Google云存储中的策略

、、、

我有2年的合并数据，大小约300 my，在我的本地磁盘，这是我已经提取的数据。我必须将相同的数据加载到google云存储和BigQuery表中。google云存储中的最终数据应该以压缩格式逐日隔离(每天的文件应该是一个gz格式的文件)。我还必须在一个分区表中加载BigQuery中的数据，也就是说，每一天的数据都应该存储在一个分区中。我首先将两年的合并数据加载到google存

浏览 2提问于2016-08-10得票数 1

回答已采纳

1回答

Google云欧洲区域与bigquery和数据流不匹配

、、

bigquery数据集的指出，可以获得以下欧洲区域(A)：我们愚蠢(事后

浏览 0提问于2020-02-21得票数 0

回答已采纳

1回答

从Google云存储到Big Query的流式数据流

、、、

我正在尝试使用DataFlow (Java)将数据从云存储插入到Big Query。我可以批量上传数据；但是，我想设置流式上传。因此，当新对象添加到我的存储桶中时，它们将被推送到BigQuery。我已经将PipelineOptions设置为流式传输，它在GCP Console UI中显示数据流管道是流式传输类型。存储桶中最初的一组文件/对象被推送到BigQuery。但是，

浏览 47提问于2018-06-03得票数 3

回答已采纳

2回答

如何计算将数据从蔚蓝数据转移到google BigQuery时的成本

、、

我们在Azure中有一个数据存储管道，可以将一个前提下的SQL表移动到Azure blob存储的Gen2中。我认为大部分费用都来自Azure仓库，对吧？现在，我们希望将这些数据移动到BigQuery。由于我们的安全策略，我们仍然需要数据表管道从SQL表中读取。因此，我们创建了一个数据库笔记本，以读取拼花文件，并移动到BigQuery使用火花BigQuery连接器。

浏览 5提问于2021-01-21得票数 0

回答已采纳

1回答

BigQuery数据仓库设计？

、、、

HDFS:：着陆区->级1区->级2区着陆区--对于具有原始数据级1区域的数据--来自着陆区的原始数据被转换，然后更改为不同的数据格式和/或非规范化并存储在第1阶段2区域中--第1阶段的数据在交易表上更新如果它只是一个时间段数据，那么仍然是基于HDFS的HIVE表，那么，报告会发生在第2阶段(如果转换之间也可能有多个区域)

浏览 0提问于2018-08-14得票数 0

回答已采纳

7回答

将数据从导出到亚马逊S3

、、

我希望将数据从BigQuery中的表传输到Redshift中的另一个表中。我计划的数据流如下：我知道谷歌云存储传输服务，但我不确定它是否能帮助我。来自Google文档：此页面描述云存储传输服务，您可以使用该服务快速将联机数据导入。我知道这个服务可以用来将<em

浏览 13提问于2016-09-05得票数 41

回答已采纳

1回答

我正在实现一个ETL作业，它将非分区的BigQuery表迁移到分区的表。为此，我使用了来自BigQuery的Storage。这将创建许多要从其中提取数据的会话。为了将BigQuery写入路由到正确的分区，我使用了File方法。由于30天的限制，流插入是不可行的。存储写API似乎是有限的，识别分区。通过驻留到File方法，数据将被写入GCS。基于数据流流程，节点似乎可以在管道的不同部分执行工作负载。

浏览 4提问于2022-09-12得票数 1

1回答

我能使用BigQuery和的相同编程语言吗？

、

我希望在两种不同的技术中使用相同的函数来解析事件: Goolge和DataFlow。有我能用的语言吗？如果不是，谷歌是否计划在短期内支持一家公司？背景：这种解析有些很复杂(例如，应用自定义的URL提取规则，从用户代理中提取信息)，但在计算上并不昂贵，而且不涉及将事件加入到任何其他大型查找表中。因为解析可能很复杂，所以我只想用一种语言编写解析逻辑，并在需要的地方运行它:有时在BigQuery中，有时在其他环境(如DataFlow )中。我知道BigQuery支持javascript。有没有一种在Google

浏览 0提问于2018-06-12得票数 0

1回答

从数据流插入BigQuery流-无结果

、、

我有一个数据流管道，它从PubSub Lite读取消息，并将数据流式传输到BigQuery表中。该表按天进行分区。使用以下命令查询表时：BigQuery我目前使用的是Apache Beam版本2.26，我的Dataflow编写器如下所示： return BigQueryIO.withTimeParti

浏览 4提问于2021-10-14得票数 2

3回答

无法写入bigquery* -权限被拒绝: Google*

、、、

我使用使用google云数据流服务已经有一段时间了。数据流管道 apache_beam.runners.data

浏览 0提问于2018-05-07得票数 4

2回答

BigQuery流和删除，而流缓冲区不是空的？

、

BigQuery不会直接流到他们的长期存储中，他们首先将其放入一个写优化的存储中，并定期将其刷新到主存储中。例如，如果我将一百万条记录流到BigQuery中。有些记录现在仍然保存在

浏览 1提问于2018-01-18得票数 1

回答已采纳

1回答

当使用Apache的DIRECT_READ时，是否读取流缓冲区？

、

我使用Bigquery和数据流。当使用Apache的时，是否读取流缓冲区？有人知道是否是这样吗？

浏览 9提问于2022-03-17得票数 0

1回答

在Python中使用数据流管道实现Google Datastore到Bigquery的数据传输

、、、、

我们有一个从Google Cloud Datastore到Bigquery的数据传输问题。我们需要在python中为这项工作创建数据流脚本。此作业应使用python中的管道将数据从数据存储传输到bigquery。对于python中的这项工作，它需要"Apache Beam“library.But Apache Beam库不工作。

浏览 0提问于2016-10-07得票数 0

2回答

云存储新增文件时触发数据流作业

、、

我希望在向存储存储桶添加新文件时触发数据流作业，以便处理新数据并将新数据添加到BigQuery表中。我看到云通过存储桶中的更改来运行，但我还没有找到使用启动数据流作业的方法。有没有一种方法可以使用云函数来实现这一点，或者是否有其他方法来实现预期的结果(在将文件添加到存储存储桶时将新数据插入到BigQuery中)

浏览 6提问于2016-04-02得票数 2

回答已采纳

点击加载更多

如何从云数据存储迁移到云Spanner？