Apache reading从GCS读取Avro文件并写入BigQuery

文章/答案/技术大牛

发布

1回答

、、、

正在运行java作业以读取Avro文件，但一直收到错误。apply(AvroToCsv.java:1) at org.apache.beam.sdk.io.gcp.bigquery.PrepareWrite$1.processElement(apply(A

浏览 36提问于2020-06-01得票数 0

1回答

如何使用气流将bigquery导出到bigtable？图式问题

、、、

我使用气流将BigQuery行提取到的Avro格式。但是，在使用数据流将avro文件加载到bigtable时，我收到了错误消息。"java.io.IOException: Failed to start reading from source: gs://export/test.avro-" Caused by: org.apache.avro.AvroTypeException文件中

浏览 9提问于2021-08-05得票数 1

回答已采纳

2回答

读取Avro文件并将其写入BigQuery表

、、、

我的目标是从云存储中读取avro文件数据，并使用Java将其写入BigQuery表。如果有人提供代码片段/想法来读取avro格式的数据并使用将其写入BigQuery表，那就太好了。

浏览 1提问于2019-02-05得票数 5

回答已采纳

1回答

谷歌云数据流如何使用apache从BigQuery读取？

、、

是一个带有查询结果的表创建，工作人员从其中读取页面，或者每个工作人员运行该查询并读取不同的页面或.多么?

浏览 0提问于2018-11-06得票数 0

回答已采纳

1回答

从BigQuery读取数据并将其写入云存储上的avro文件格式

、、、、

我的目标是从BigQuery表中读取数据，并使用Java将其写入云存储上的Avro文件。如果有人提供代码片段/想法来编写BigQuery表数据，并使用Cloud Dataflow将其写入avro格式的数据，那将是一件好事。

浏览 16提问于2019-09-11得票数 0

2回答

bigquery存储API:可以直接将AVRO文件流/保存到吗？

、、、、

该表是按日期划分的，每个分区占300 GB.我有一个运行在GCP上的Python笔记本，它通过这个从改编的脚本运行分区(并行)。= bigquery_storage_v1.enums.DataFormat.AVRO session = client.create_read_sessionrows = reader.rows(session)我尝试使用将表作为AVRO<

浏览 4提问于2020-05-20得票数 1

2回答

波束数据流流水线表创建Sink作为来自GCS的Bigquery

、、、

我想创建beam数据流作业来从GCS加载数据到Bigquery，我将在GCS的不同文件夹中有100s的文件，可以在GCS的不同文件夹中加载文件，是否可以在beam代码中创建源数据集和表。我的最终目标是创建管道，将数据从GCS加载到Bigquery，谢谢。

浏览 10提问于2021-02-23得票数 0

回答已采纳

3回答

如何从云数据存储迁移到云Spanner？

、、、

我正在查看数据流，以尝试将数据从Datastore导出到Spanner。扳手似乎只接受通过数据流连接器的avro文件。我能找到的唯一数据流模板是从数据存储到文本文件。

浏览 59提问于2019-05-03得票数 0

回答已采纳

1回答

带有限制和偏移量的BigQuery存储读取API

、、、

下面是我试图从BigQuery表读取数据的示例。它正在获取整个表，我可以提供基于列值的过滤器。但是我想应用限制和偏移，并为数据获取/读取提供自定义SQL。在存储API中有可能吗？com.google.common.base.Preconditions;import java.io.IOException;import org.ap

浏览 39提问于2022-02-16得票数 0

2回答

数据流Python Source/Sync

、、

我希望通过Python在GCS中摄取和编写Avro文件。通过Avro利用Python，这是目前可能的吗？如果是这样的话，我怎么做呢？我在消息来源中看到了TODO对此的评论，所以我不太乐观。

浏览 4提问于2016-06-13得票数 1

回答已采纳

3回答

与BigQuery兼容的Spark AVRO

、、、

我正在尝试在Hive中创建一个外部表，并在BigQuery中创建另一个表，使用与Spark编写的Avro格式存储在Google Storage中的相同数据。但对于BigQuery是不同的，它可以读取Hive Avro文件，但不能读取Spark Avro文件。错误： The Apache Avro library failed to parse the header with the follwing

浏览 30提问于2017-12-18得票数 1

1回答

使用Apache光束/数据流从BigQuery读取数据时使用fastavro

、、

我的项目运行的是Python2.7(是的，我知道...)Google Dataflow上的Apache Beam 2.19。我们连接到BigQuery的方式与Apache光束教程中指定的方式相同： query=get_query(limit),然而，此管道的读取步骤非常慢

浏览 0提问于2020-03-19得票数 0

1回答

用Dataflow Python从PubSub读取AVRO消息

、、、

我需要阅读另一个GCP项目的PubSub主题的AVRO消息。我之前已经实现了Python管道，它从PubSub读取JSON消息并写入BigQuery。但我对处理阿夫罗的信息很陌生。我试图查找AVRO的Python文档，它将我指向这个链接在这个链接中，有从文件读取和写入文件的示例，但我认为从PubSub读取这些函数并不有用。我使用下面的转换从Pu

浏览 9提问于2020-04-14得票数 2

回答已采纳

1回答

从google pubsub到spark streaming的数据摄取速度很慢

、、、、

我正在使用google cloud Dataproc Spark集群来运行Spark streaming作业，该作业从多个PubSub订阅中读取数据并写入BigQuery。以下是我的Scala代码：for (a <- 0 to Integer.parseInt(subs)) { logger.info// "org.apache.spark&q

浏览 5提问于2019-07-22得票数 3

1回答

Apache :在PCollection中读取管道的PBegin

、、

我正在调试这个束管道，我的最终目标是将PCollection中的所有字符串写入一个文本文件。在我想要检查的PCollection创建之后，我已经设置了一个断点，我一直在尝试创建一个新的管道，将其打印到文件中(使用`TextIO.write

浏览 2提问于2020-03-18得票数 0

回答已采纳

1回答

Apache光束Python SDK -从GCS读取GZIP压缩的拼图文件

、、、

我想读取一个GZIP压缩的帕奎特文件从GCS到BigQuery使用Python SDK for Apache光束。但是，apache_beam.io.parquetio.ReadFromParquet方法似乎不支持从压缩文件中读取。根据源代码，压缩类型被硬编码为UNCOMPRESSED。有没有一个技巧来读取压缩的拼图文件，而不需要在GCS中预先解压缩文件<

浏览 2提问于2019-11-25得票数 0

2回答

使用Apache以CSV格式将BigQuery结果写入GCS

、、、

我在Apache上工作非常新，在这里我尝试编写一个管道，从Google BigQuery中提取数据，并使用Python格式将数据写入GCS。使用beam.io.read(beam.io.BigQuerySource())，我可以从BigQuery读取数据，但不确定如何以CSV格式将其写入GCS。import logging f

浏览 1提问于2018-10-22得票数 6

回答已采纳

1回答

数据流管道中的TextIOWrapper运行缓慢

、、、

我正在将csv文件从GCS加载到BigQuery中，并通过Cloud Composer触发任务(然后做一些其他的事情)。由于某些字段中存在各种字符，bq load命令无法正确解析文件，因此我求助于数据流来帮助解析和加载。有8个文件，每个文件的大小约为1 1GB。它有96列的数据和大约3M条记录直接从GCS加载到BQ。因此，我将打开的GCS文件传递给csv.DictReader，以便

浏览 20提问于2019-06-26得票数 0

2回答

将BigQuery数据传输到s3桶

、、、

BigQuery数据是愿意适当访问数据传输的其他组织的数据。我找到了从s3桶导入到gcp的方法，但是没有办法直接从大查询导出到s3。而且，由于bigquery中的数据正在发生变化，我需要安排这个过程，而且我每天都想要s3桶中的数据。请提到这方面的参考资料。请注意，每天的数据将出现在TBs中。

浏览 2提问于2020-10-01得票数 4

1回答

如何使用Google工具和javascript存储和提供优惠券

、、

需要存储在某个地方(bigquery?)在那里我可以请求并发送给用户。用户应该只能得到一个唯一的代码，这是事先没有使用的。我需要获得一个代码并编写它的能力，所以下一个请求得到下一个代码.

浏览 4提问于2021-04-13得票数 0

回答已采纳

点击加载更多