在Google DataFlow (java)中创建复杂的BigQuery模式

文章/答案/技术大牛

发布

3回答

、、、、

我有一个复杂对象的无限流，我想将其加载到BigQuery中。这些对象的结构表示我在BigQuery中的目标表的模式。问题是，由于POJO中有很多嵌套的字段，将其转换为TableSchema对象是一个，而我正在寻找一种快速/自动的方法来将我的POJO转换为TableSchema对象，同时写入BigQuery。

浏览 33提问于2019-08-21得票数 0

0回答

谷歌BigQuery支持ARRAY<STRING>吗？

、、

我正在将数据从谷歌数据流推送到谷歌BigQuery。我有一个包含数据的TableRow对象。TableRow中的某一列包含字符串数组。com.google.cloud.dataflow.sdk.util.DoFnRunnerBase.wrapUser

浏览 14提问于2017-06-03得票数 0

回答已采纳

1回答

我有一条数据流管道，在本地运行。目的是使用TEXTIO读取JSON文件，进行会话并将其加载到BigQuery中。根据这种结构，我必须在GCS中创建一个临时目录，然后使用该目录将其加载到BigQuery中。以前，我有一个数据模式错误，无法加载数据，请参阅。这个问题已经解决了。因此，现在当我在本地运行管道时，它会将一个临时的JSON换行符分隔文件转储到GCS中。Exception in thread &

浏览 0提问于2016-12-31得票数 0

回答已采纳

1回答

从Google读取数据

、、、、

我是管道世界和Google的新手。在com.google.cloud.dataflow.sdk.Pipeline.applyTransform(Pipeline.java:267) 在com.g

浏览 3提问于2016-01-20得票数 1

1回答

在本地运行数据流会导致JVM崩溃(OOM)

、、

使用DirectPipelineRunner，我想在本地运行我的流水线，以便进行调试。我正在使用带有Java 8的SDK 1.9.0。我的流水线从BigQuery读取一个表，转换一些字段，然后写回BigQuery。在GCP上运行，即使用DataflowPipelineRunner运行器工作得非常好。43740 [main] INFO com.google.cloud.dataflow.sdk.util.BigQueryServic

浏览 25提问于2017-01-20得票数 0

3回答

显示RuntimeException的Apache Beam - Bigquery流插入: ManagedChannel分配站点

、、

我在Google Dataflow中运行了一个Apache beam流水线。它从Kafka中读取数据并将其流式插入到Bigquery。但在bigquery流插入步骤中，它抛出了大量警告-at io.grpc.internal.ManagedChannelOrphanWrapper:169) at com.<e

浏览 7提问于2021-06-01得票数 5

1回答

数据流:从Pubsub RuntimeException导出到Bigquery

、、、

我正在使用pubsub中的“”特性，通过数据流将一个常规的JSON传递给bigquery。但是，它工作了一秒钟，这意味着一些条目可以正确地传递到bigquery。) com.google.cloud.dataflow.worker.SimpleParDoFn.finishBundle(SimpleParDoFn.java:407) com.google.cloud.dataflow.worker.util.comm

浏览 1提问于2018-03-27得票数 1

回答已采纳

1回答

数据流的BigQuery插入器线程池耗尽

、

我正在使用Dataflow将数据写入BigQuery。(BigQueryIO.java:2113) }看起来我正在耗尽中定义的线程池。下面是我的用法的一些上下文：我在

浏览 3提问于2016-08-19得票数 1

回答已采纳

2回答

用SecurityException在addShutdownHook上为BigQueryTableInserter启动带有应用程序引擎错误的数据流作业

、

我试图通过一个(已经存在的) AppEngine应用程序启动数据流作业。DataFlow作业读取存储在DataStore中的GAE应用程序生成的数据，并将处理过的数据写入BigQuery。(Request.java)at com.google.cloud.dataf

浏览 8提问于2016-03-21得票数 1

回答已采纳

3回答

、、、

我正在Dataflow 2.x中创建一个管道，它接收来自Pubsub队列的流输入。输入的每一条消息都需要通过来自Google BigQuery的非常大的数据集流，并在写入数据库之前将所有相关值(基于键)附加到该数据集中。问题在于，来自BigQuery的映射数据集非常大--任何将其用作侧输入的尝试都会失败，因为数据流运行程序会抛出错误"java.lang.

浏览 4提问于2017-11-27得票数 12

1回答

数据流批处理作业失败并“未能关闭某些写入器”

、

有751个文本文件，我使用TextIO.readAll()转换解析、反序列化和写入BigQuery中的日期分区表。下面的堆栈跟踪使我的管道失败：at org.apache.beam.sdk.io.gcp.bigquery.WriteBundlesToFiles.finishBundle:187) at com.google

浏览 1提问于2018-01-16得票数 1

回答已采纳

1回答

Apache的BigQuery授权视图

、、、

我试图使用Apache在BigQuery中查询一个视图。java.lang.RuntimeException: java.io.IOException: Unable to get table: test:78) at org.apache.beam.runn

浏览 2提问于2020-08-12得票数 2

回答已采纳

2回答

使用BigQuery从数据流模板读取ValueProvider时出现异常

、、、、

我正在尝试创建一个从BigQuery读取的模板，不幸的是，我在构建模板时遇到了异常。 .withTemplateCompatibility()备注：如果要运行从BigQuery读取的批处理管道，则必须对所有BigQueryv

浏览 0提问于2018-11-28得票数 3

回答已采纳

1回答

如何修复谷歌DataFlow管道(args)空指针异常？

、、、

我正在尝试运行一个非常简单的数据流作业，只需要在BigQuery中获取一些数据，对其进行一些处理，然后将其放入一个新的bigquery表中 at com.google.cloud.dataflow.sdk.io.BigQueryIO$Read$Bound.apply(BigQueryIO.javaco

浏览 11提问于2016-08-30得票数 1

回答已采纳

2回答

如何从jar提交数据流作业？

、、

为了重现性，我希望能够构建包含数据流作业的jars，然后使用不同的参数运行它们(例如，通过不同的帐户提升它们)。这也将简化回滚，因为构建将是不可变的。我目前正在使用maven的DataflowPipelineRunner运行作业，但是由于上面提到的自动化部署等原因，这是非常糟糕的。如何从jar中直接运行数据流作业？

浏览 0提问于2017-04-26得票数 0

点击加载更多