如何使用Dataflow跳过apache beam中io级别的错误元素？

、、、

我正在对GCP中存储的to记录进行一些分析，但是文件中的一些to记录已经损坏，所以当我运行我的流水线并得到四个以上的错误时，我的流水线由于而中断。下面是我的处理脚本import apache_beam as beamfrom apache_beam.met

浏览 16提问于2020-02-25得票数 1

回答已采纳

1回答

从BigTable到模式问题？

、、、、

我正在尝试使用Dataflow模板1将一个Avro文件(使用Spark3.0生成)摄取到BigTable中，并获得以下错误。知道吗？错误(完全)at org.<e

浏览 6提问于2020-12-22得票数 1

回答已采纳

1回答

数据流管道上的Apache梁StatusRuntimeException

、、、、

我正在使用apache_beam==2.24.0编写一个用python2.7编写的数据流管道。该管道的工作是使用beam的ReadFromPubSub批量使用订阅中的pubsub消息，对消息进行一些处理，然后将结果数据持久化到两个不同的bigquery表中。有很多我正在消费的数据。在运行管道之后，一切正常，但几个小时后，我开始得到异常：已取消的org.apache.beam.vendor.grpc.v1p13p1.

浏览 1提问于2021-03-31得票数 0

1回答

可拆分的DoFn导致混乱密钥太大的问题

、、

我设法使用DirectRunner在本地运行了一个单元测试，使用了5000个元素，同时在DataFlow中运行了相同的单元测试，但失败了，错误如下。: java.io.IOException: INVALID_ARGUMENT: Shuffle key too large:3749653 > 1572864 at org.apache.beam.runners.dataflow.worker.GroupAlso

浏览 1提问于2019-10-21得票数 0

1回答

Apache的BigQuery授权视图

、、、

我试图使用Apache在BigQuery中查询一个视图。java.lang.RuntimeException: java.io.IOException: Unable to get table: testat org.apache.beam.sdk.io</e

浏览 2提问于2020-08-12得票数 2

回答已采纳

1回答

由: java.lang.UnsupportedOperationException: BigQuery源文件必须拆分后才能读取

、、

我正在尝试使用Java BigqueryIO.read方法从bigquery中读取数据。但是得到了低于错误。$BoundedToUnboundedSourceAdapter@77f0db34 org.apache.beam.runners.dataflow.worker.WorkerCustomSources(ReadOperation.java:194) org.apache.beam.runners.dataflow.worker

浏览 0提问于2020-06-09得票数 0

2回答

如何使用在同一管道中读取BigQuery和文件系统中的数据？

、、

我正在尝试使用下面的代码读取Bigquery中的一些数据和文件系统中的一些数据。() preprocess_rows =p= beam.io.ReadFromText(file_path，coder=UnicodeCoder()) 文件)) "/etl/dataflow/venv3/lib/python3.7/site-packages/

浏览 4提问于2020-03-01得票数 1

1回答

数据流:从Pubsub RuntimeException导出到Bigquery

、、、

我正在使用pubsub中的“”特性，通过数据流将一个常规的JSON传递给bigquery。 java.lang.RuntimeException: java.io.IOException:插入失败：[{“错误”：{“debugInfo”：“”、“位置”：“_comments”、“消息”：“没有这样的字段”、“原因”：“无效”}，“索引”：0}] org.apache.be

浏览 1提问于2018-03-27得票数 1

回答已采纳

1回答

数据流模板"Pub/Sub Avro to Bigquery“解码失败

、、、、

Pub/Sub中的数据是AVRO格式的，来自Kafka主题。我从模式注册表中获得的相应模式文件。，我在数据流中收到以下错误： 2021-01-22 10:31:28.231 MEZError message from worker: java.lang.RuntimeException: Could:101) org.apache.beam.sdk.util.CoderUtils.decodeFromByteArray(CoderUtils.java:92) org.a

浏览 32提问于2021-01-22得票数 0

1回答

Apache升级问题

、、

最近，我将项目的Apache<beam.version>从2.19升级到2.34。...:420) at org.apache.beam.runners.dataflow.worker.BatchDataflowWorker.doWork(BatchDataflowWorker.java:(WorkerCustomSources.java:201) org.apache.beam.ru

浏览 11提问于2021-12-16得票数 0

1回答

数据流管道在从发布/订阅读取时停滞

、、、

(ReadOperation.java:201) at org.apache.beam.runners.dataflow.worker.StreamingDataflowWorker.process$1000(StreamingDataflowWorker

浏览 9提问于2019-04-22得票数 1

1回答

Apache束流管道和毒丸

、、、、

我正在使用GCP数据流运行Apache Beam管道，并从worker那里获得了以下错误： Error message from worker: java.lang.RuntimeException:在管道中，当将PubSub消息转换为TableRow时，我使用的是FailsafeElement<PubsubMessage, String>，并且在BigQuery中也有死信表，这样我就可以在转换后的消息中写入失败的消息但是，从我所读到的关于

浏览 8提问于2022-09-15得票数 0

1回答

Beam.io.WriteToPubSub抛出错误“给定的pcoll PDone[WriteToPubSub/Write/NativeWrite.None]不是一个字典，一个迭代器或一个PCollection

、、

每当我使用"WriteToPubSub“时，我都会收到一个错误。下面的代码是我尝试调试这个问题的代码。我的实际代码是尝试从WriteToBigQuery的失败中获取数据，以便将其推送到死信发布订阅主题。但是当我尝试这样做的时候，我总是遇到下面的错误。import InteractiveRunnerfrom apache_<em

浏览 1提问于2021-01-19得票数 0

1回答

数据流作业中的EOFException正在写入扳手

、、

所有读取都已完成，但由于某些原因，在开始向扳手写入时，它始终出现EOFException错误，并且它位于类MutationGroupEncoder中。我们使用的是Google Cloud Apache Beam SDK的2.5.0版本。 at org.apache.beam.sdk.util.UserCodeException.wrap

浏览 3提问于2018-07-26得票数 2

1回答

使用Apache* Beam编写通用记录时Avro“不打开”异常*

、、

我使用AvroIO.<MyCustomType>writeCustomTypeToGenericRecords()将通用记录写入流数据流作业中的GCS。在前几分钟，一切似乎都正常，但是，大约10分钟后，作业开始抛出以下错误： org.apache.beam</em

浏览 1提问于2018-11-16得票数 0

回答已采纳

1回答

'_UnwindowedValues‘类型的对象没有len()意味着什么？

、

我正在使用Dataflow 0.5.5 Python。在非常简单的代码中遇到以下错误：row_list是一个列表。as beamfrom apache_beam.utils.options import(options=pipeline_options) |

浏览 0提问于2017-02-16得票数 10

回答已采纳

1回答

Apache :初始化分区“Top-1”时超时。Kafka客户端可能无法连接到服务器。

、、、、

当我的Apache应用程序连接到启用ACL的Kafka集群时，我得到了这个错误。请帮我解决这个问题。org.apache.beam.sdk.io.kafka.KafkaUnboundedReader.start(KafkaUnboundedReader.java:128)

浏览 0提问于2019-03-08得票数 1

回答已采纳

1回答

我在Apache中使用ReadFromSpanner超过了504个截止日期

、、

我正在用Apache和Python构建一个运行在Google DataFlow中的应用程序。我在apache_beam.io.gcp.experimental.spannerio中使用了apache_beam.io.gcp.experimental.spannerio方法。_OutputProcessor.process_outputs File "/usr/local/l

浏览 17提问于2021-03-09得票数 1

回答已采纳

2回答

将pubsub主题作为arugument提供时出现数据流错误

、

问题出现在beam.io.gcp.pubsub.WriteToPubSub()中，我试图从ValueProvider提供主题名称，根据谷歌文档，在创建模板时需要使用该名称： https://cloud.google.com(user_options.topic) File "C:\github\pipeline-dataflow-jobs\dataflow\lib\site-packages\apache_beam\F

浏览 20提问于2020-05-02得票数 1

2回答

如何通知DataFlow作业何时完成

、

| 'write to bigquery' >> beam.io.WriteToBigQuery(...| 'write to bigquery' >> beam.io.WriteToBigQuery(...)但是，上述两种代码都会产生以下错

浏览 0提问于2018-06-28得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

从BigTable到模式问题？

数据流管道上的Apache梁StatusRuntimeException

可拆分的DoFn导致混乱密钥太大的问题

Apache的BigQuery授权视图

由: java.lang.UnsupportedOperationException: BigQuery源文件必须拆分后才能读取

如何使用在同一管道中读取BigQuery和文件系统中的数据？

数据流:从Pubsub RuntimeException导出到Bigquery

数据流模板"Pub/Sub Avro to Bigquery“解码失败

Apache升级问题

数据流管道在从发布/订阅读取时停滞

Apache束流管道和毒丸

Beam.io.WriteToPubSub抛出错误“给定的pcoll PDone[WriteToPubSub/Write/NativeWrite.None]不是一个字典，一个迭代器或一个PCollection

数据流作业中的EOFException正在写入扳手

使用Apache* Beam编写通用记录时Avro“不打开”异常*

'_UnwindowedValues‘类型的对象没有len()意味着什么？

Apache :初始化分区“Top-1”时超时。Kafka客户端可能无法连接到服务器。

我在Apache中使用ReadFromSpanner超过了504个截止日期

将pubsub主题作为arugument提供时出现数据流错误

如何通知DataFlow作业何时完成

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐