令人困惑的是,每个关于数据流的谷歌文档都说它现在是基于Apache光束的,并将我引导到光束网站。此外,如果我查找github项目,我会发现google dataflow项目是空的,并且所有的项目都转到apache see repo。假设我现在需要创建一个管道,根据我从Apache光束中读到的,我会这样做:from apache_beam.options.pipeline_options然而,如果我使用google-cloud-dataflow,我会得到错误:no mod
我是第一次使用Apache光束和Dataflow。我想使用数据集作为将使用数据流并行部署的函数的输入。这是我到目前为止所知道的:import apache_beam as beam
from apache_beam.options.pipeline_options import SetupOptionsfrom apache_beam.options.pipe
当我试图在Flink运行器上运行TFX管道/Apache光束作业时,当使用1个任务管理器(在一个节点上)并行度为2(每个任务管理器2个任务槽)时,它工作得很好。但当我在多个任务管理器上以更高的并行性尝试它时,当消息在两个任务管理器上不断重复时,它会挂起: INFO org.apache.beam.runners.fnexecution.environment.ExternalEnvironmentFactory因此,我在配置时使用该地址: f"--