使用DataFlow将ISO-8859-1加载到BigQuery时出现问题(Apache Beam)

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、

我正在尝试使用DataFlow将ISO-8859-1文件加载到BigQuery中。我已经用Apache Beam Java构建了一个模板。一切运行正常，但当我检查Bigquery表的内容时，我发现一些字符，如'ñ‘或重音'á'，'é’等没有正确存储，它们被存储为�。在写入BigQuery之前，我已经尝试了几次字符集更改。此外，我还使用set

浏览 15提问于2019-07-23得票数 0

1回答

Apache的BigQuery授权视图

、、、

我试图使用Apache在BigQuery中查询一个视图。java.lang.RuntimeException: java.io.IOException: Unable to get table: test) at org.apache.beam.runners.data

浏览 2提问于2020-08-12得票数 2

回答已采纳

1回答

数据流:从Pubsub RuntimeException导出到Bigquery

、、、

我正在使用pubsub中的“”特性，通过数据流将一个常规的JSON传递给bigquery。但是，它工作了一秒钟，这意味着一些条目可以正确地传递到bigquery。(StreamingWriteFn.java:131) org.apache.beam.sdk.io.gcp.bigquery.StreamingWriteFn.finishBundle(StreamingWriteFn.javaorg.apache.beam.sdk.io

浏览 1提问于2018-03-27得票数 1

回答已采纳

1回答

无法调试的数据流异常

org.apache.beam.sdk.io.FileBasedSource.createReader (FileBasedSource.java:332) at org.apache.beam.runners.dataflow.worker.util.common

浏览 1提问于2018-11-20得票数 3

1回答

在Google App Engine Flex上运行Apache* Beam时，“‘module”对象没有属性“WriteToBigQuery”*

、、、、

我有一个谷歌应用程序引擎触发云DataFlow管道。这条管道应该将最终的PCollection写入谷歌BigQuery，但我找不到一种方法来安装正确的apache_beam.io依赖项。我在本地运行Apache Beam2.2.0版。 write_disposition=beam.io.BigQueryDisposition.WRITE_APPEND当我在本地运行这段代码时

浏览 6提问于2018-02-09得票数 3

1回答

数据流管道上的Apache梁StatusRuntimeException

、、、、

我正在使用apache_beam==2.24.0编写一个用python2.7编写的数据流管道。该管道的工作是使用beam的ReadFromPubSub批量使用订阅中的pubsub消息，对消息进行一些处理，然后将结果数据持久化到两个不同的bigquery表中。有很多我正在消费的数据。它使用订阅中的数据并将其写入bigquery。取消了什么:这里提到的是呼叫，为什么我会收到这个错误？我怎么解决这个问题？:108)

浏览 1提问于2021-03-31得票数 0

1回答

如何修复写入java.lang.RuntimeException的数据流模板作业中的"java.lang.RuntimeException:未能创建作业“？

我试图使用JDBC到BigQuery Dataflow 将数据从Postgres数据库复制到BigQuery。at org.apache.beam.sdk.io.gcp.bigquery.BigQueryHelpers$PendingJob.runJob ( org/apache.beam.sdk.io.gcp.bigquery( org/apache.

浏览 11提问于2022-11-19得票数 2

回答已采纳

1回答

触发云存储-数据流

、、、、

我现在开始工作，我需要一些帮助，我有一个自定义模型，我使用apache beam创建了一个管道，该管道从存储桶内的文件夹中获取来自csv文件的数据，然后将数据抛到bigquery表中，这个表已经按照我的要求工作，但是由于它是一个批处理管道，它只在我运行数据流时运行，所以我想自动化这个函数，条件是当加载一个新文件时，这个作业自行运行，我怎么做呢？模板数据流import os fro

浏览 7提问于2022-04-28得票数 1

1回答

读取BigQuery类形式的Java表数据(Pojo)

、、

我需要使用数据流从Bigquery中读取表数据，而不是使用/存储数据到TableRow类。我想在Java Pojo类中存储数据，有没有什么方法可以将数据直接映射到Pojo中。(MapTaskExecutor.java:77) at org

浏览 25提问于2019-05-24得票数 1

1回答

Apache束流管道和毒丸

、、、、

我正在使用GCP数据流运行Apache Beam管道，并从worker那里获得了以下错误： Error message from worker: java.lang.RuntimeException:我正在使用管道将消息从PubSub写到BigQuery。在管道中，当将PubSub消息转换为TableRow时，我使用的是FailsafeElement<PubsubMessage, String>，并且在BigQue

浏览 8提问于2022-09-15得票数 0

1回答

在数据流python中在运行时向“beam.io.BigQuerySource”提供“查询”参数

、、

TLDR：我希望每个月使用dataflow API和模板使用不同的查询运行beam.io.BigQuerySource。如果这是不可能的，那么我可以在运行时将查询传递给beam.io.BigQuerySource，同时仍然使用Dataflow API和模板吗？我想使用Dataflow API来自动化这个批处理管道的运行，使用云函数、pubsub事件、云调度器。以下是云功能，它由云调度程序每

浏览 1提问于2020-06-29得票数 1

回答已采纳

2回答

如何使用python自动更新google大查询中的数据？

、、

我的舞台：使用python (IDE:Spyder)Pull数据连接到MySql数据库，使用python将dataframeConnect转换为Google，使用python将数据写入GoogleBigQuery因此，当我想更新数据时，我删除google大查询中的表，然后再次运行python代码。现在我想自动更新数据。使用python可以做到这一点吗？

浏览 16提问于2021-07-01得票数 0

1回答

如果在作业运行期间删除了GCloud数据流，则重新创建BigQuery表。

、、、

我已经设置了一个GCloud数据流管道，它使用来自Pub/Sub订阅的消息，将它们转换为表行，并将这些行写入相应的BigQuery表。$DatasetServiceImpl.insertAll(BigQueryServicesImpl.java:816) at org.apache.

浏览 1提问于2020-03-21得票数 0

回答已采纳

2回答

使用BigQuery从数据流模板读取ValueProvider时出现异常

、、、、

我正在尝试创建一个从BigQuery读取的模板，不幸的是，我在构建模板时遇到了异常。 .withTemplateCompatibility()备注：如果要运行从BigQuery读取的批处理管道，则必须对所有BigQuery读取使用BigQuery。下面是我使用

浏览 0提问于2018-11-28得票数 3

回答已采纳

0回答

Apache-Beam将序列号添加到PCollection

、、、、

我使用的是Apache Bea，Python和DataFlow，还有BigQuery。我需要为pcollection的每个元素分配一个序列号，以便将其加载到BigQuery中，但我找不到任何方法来做到这一点。我认为我需要DataFlow来进行前面的聚合和连接，以获得添加序列号的最终pcollection，但此时我需要停止并行处理，并将pcollection转换为一个列表(就像使用.collect()时在Spark这是我编写的管道： p

浏览 0提问于2017-12-03得票数 1

回答已采纳

2回答

读取数据时出错，错误消息: JSON表遇到太多错误，放弃。行

、、

我有两个文件，并在apache中使用CoGroupByKey进行内部连接。当我向bigquery写入行时，iy会给出以下错误。Error Result: <ErrorProtoimport apache_b

浏览 20提问于2022-06-04得票数 0

2回答

使用Python处理Apache光束管道中的异常

、、、

_flush_batch() org.apache.beam.runners.dataflow.worker.Stream

浏览 14提问于2019-01-30得票数 5

回答已采纳

2回答

解析JSON时Google Javascript UDF错误

、、、

我使用Pub/Sub到BigQuery 来流发送到Pub/Sub主题的JSON数据。通过Dataflow，我希望平平数据以匹配BigQuery模式并对它们进行流。:272) at org.apache.beam.runners.dataflow.worker.repackaged.org.apache.beam.runners.core.SimpleDoFnRunner.outputWindowedValu

浏览 0提问于2019-04-12得票数 0

回答已采纳

1回答

BigQuery手动加载，但不是通过Java加载。

、、

目的是使用TEXTIO读取JSON文件，进行会话并将其加载到BigQuery中。根据这种结构，我必须在GCS中创建一个临时目录，然后使用该目录将其加载到BigQuery中。因此，现在当我在本地运行管道时，它会将一个临时的JSON换行符分隔文件转储到GCS中。然后SDK提供了以下内容：INFO [main] (

浏览 0提问于2016-12-31得票数 0

回答已采纳

1回答

监控WriteToBigQuery

、、、

在我的管道中，我使用WriteToBigQuery，如下所示： 'thijs:thijsset.thijstable',这将返回一个Dict，如文档中所述，如下所示： {

浏览 0提问于2019-11-29得票数 4

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云