我有一个波束管道,从PubSub读取并在应用一些转换后写到BigQuery。管道与NPE一致失败。我使用的是beam 0.6.0版本。知道我可能做错了什么吗?我正在尝试使用DirectRunner运行管道。java.lang.NullPointerException
at org.apache.beam.sdk.io.PubsubUnboundedSource$PubsubReader.ackBatch((UnboundedReadEvaluatorF
我正在尝试为Google的数据流创建一个自定义模板。我只想从Pubsub打印一些消息到控制台。当我尝试暂存我的模板时,我得到一个错误,云发布/订阅仅可用于流式管道,而我的管道旨在成为流式管道:x。我正在做什么,使我的管道批处理而不是流式?import apache_beam as beam
from apache_beam.options.pipeline_options
我试图在DataBricks笔记本上使用Apache运行一个简单的管道,但是我无法创建任何自定义函数。下面是一个简单的例子:from apache_beam.options.pipeline_options import PipelineOptions(options=pipeline_options) as p: p
| "Create data"
问题是,当我启动管道时,它需要几个小时来“计算”所有文件的大小: INFO:apache_beam.io.gcp.gcsio:Starting the size estimation of the inputINFO:apache_beam.io.gcp.gcsio:Finished computing size of: 5480000 files
INFO:apache_beam.io.gcp.gcsioINFO:apache_<e
我正在尝试使用apache_beam运行管道(最后将到达DataFlow)。管道应如下所示:我格式化来自PubSub的数据,将原始结果写入first,运行ML模型,在从ML模型获得结果后,我想用第一次写入FS时获得的ID更新Firestore。管道代码一般如下所示: # read and format
令人困惑的是,每个关于数据流的谷歌文档都说它现在是基于Apache光束的,并将我引导到光束网站。此外,如果我查找github项目,我会发现google dataflow项目是空的,并且所有的项目都转到apache see repo。假设我现在需要创建一个管道,根据我从Apache光束中读到的,我会这样做:from apache_beam.options.pipeline_options然而,如果我使用google-cloud-dataflow,我会得到错误:no module named