我有一条数据流管道,在本地运行。目的是使用TEXTIO读取JSON文件,进行会话并将其加载到BigQuery中。根据这种结构,我必须在GCS中创建一个临时目录,然后使用该目录将其加载到BigQuery中。以前,我有一个数据模式错误,无法加载数据,请参阅。这个问题已经解决了。因此,现在当我在本地运行管道时,它会将一个临时的JSON换行符分隔文件转储到GCS中。Exception in thread &
我在GoogleDataflow中运行了一个Apache beam流水线。它从Kafka中读取数据并将其流式插入到Bigquery。但在bigquery流插入步骤中,它抛出了大量警告-at io.grpc.internal.ManagedChannelOrphanWrapper:169)
at com.<e
有751个文本文件,我使用TextIO.readAll()转换解析、反序列化和写入BigQuery中的日期分区表。下面的堆栈跟踪使我的管道失败:at org.apache.beam.sdk.io.gcp.bigquery.WriteBundlesToFiles.finishBundle:187)
at com.google
我正在尝试运行一个非常简单的数据流作业,只需要在BigQuery中获取一些数据,对其进行一些处理,然后将其放入一个新的bigquery表中 at com.google.cloud.dataflow.sdk.io.BigQueryIO$Read$Bound.apply(BigQueryIO.javaco