下面的管道适用于DirectRunner,但在下面的DataflowRunner中引发异常。如何调试这些错误?对我来说这似乎很不透明。in dataflow_worker.operations.DoOperation.start (dataflow_worker/operations.c:13064) File "dataflow_worker/operations.py", line 351, in
在运行一些从g3读取的作业时,我得到了以下异常,然后按键对数据进行分组。异常发生在读取过程中。com.google.cloud.dataflow.sdk.runners.worker.ApplianceShuffleWriter.write(Native方法( com.google.cloud.dataflow.sdk.runners.worker.ShuffleSink$ShuffleSinkWriter.outputChunk(ShuffleSink.java:293) at com.google.cloud.
$TextFileWriter.close(TextSink.java:243) at com.google.cloud.dataflow.sdk.util.common.worker.MapTaskExecutor.execute(MapTaskExecutor.java:77)
at com.google.cloud.dataf
我收到了一些很难调试的奇怪错误。我正在运行一个简单的UDF JavaScript映射程序,它映射JSON数据并将其导入BigQuery。我以前运行过其他UDF函数,从来没有遇到过这样的错误。有任何方法来调试数据流模板UDF错误(使用实际的调试器或至少使用console.log或类似的)吗?$1.output(GroupAlsoByWindowsParDoFn.java:183) at com.google.cloud.dataflow.worker.GroupAlsoByWindowFnRunner(BatchGr
但是,当我们从同一个JAR生成一个模板,使用通过云函数执行时,我们发现了以下异常: at org.apache.beam.runners.dataflow.worker.BatchDataflowWorker.executeWork(BatchDataflowWorker.java:395)
at org.apache.beam.runners.datafl
前三个步骤似乎运行良好,但在大多数情况下,作业在最后一个insert步骤上遇到问题,这会在日志中产生异常:at com.google.cloud.dataflow.sdk.io.BigQueryIO$StreamingWriteFn.finishBundle(:158)
at com.google.cloud.dataflow.sdk.runners.worker.SimpleParDoFn.
但是,即使只处理一个大小约为1.31GB的Avro文件,也会遇到OutOfMemoryError异常。我收到了以下错误消息,似乎异常来自于AvroIO和Avro库: at com.google.cloud.dataflow.sdk.io.AvroIO.access$000(AvroIO.java:118)
at com.google.c
我怎样才能最好地进行调试呢?(HashBasedTable.java:76) at com.google.cloud.dataflow.worker.StreamingModeExecutionContext(StreamingDataflowWorker.java:1058)
at com.google.cl