Apache Beam Python SDK版本上的Wait.On()

文章/答案/技术大牛

发布

1回答

、、

我正在Python上使用Apache Beam，我想问一下在python SDK上的Apache Beam Java Wait.on()是什么等价物？format(self.BUCKET,在下一个流水线中执行"RemoveOutlier“时，ApacheB

浏览 22提问于2019-11-09得票数 4

回答已采纳

1回答

Dataflow中的自定义Apache* Beam *Python版本

、、

我想知道是否有可能有一个自定义的阿帕奇光束Python版本运行在谷歌数据流。在公共存储库中不可用的版本(在撰写本文时: 0.6.0和2.0.0)。例如，来自Apache Beam官方存储库的HEAD版本，或与此相关的特定标签。我知道打包定制包(例如私有的本地包)的可能性，正如官方中所描述的那样。这里有关于如何为其他一些脚本做这件事的答案是。这上面甚至有一个GIS

浏览 16提问于2017-07-27得票数 4

回答已采纳

1回答

将MutationGroups流入扳手

、、、、

at org.apache.beam.sdk.Pipeline.applyInternal(Pipeline.java:537)这将导致管道在视图创建过程中被卡住

浏览 1提问于2018-07-23得票数 4

1回答

更新apach梁数据流和google云-bigquery的指南

、、、、

我想使用最新的google bigquery和dataflow sdk，它可用于python 2.7。我的管道设置如下：*setup(** version='1.0.0',* *

浏览 1提问于2019-11-19得票数 0

1回答

ClassNotFoundException同时使用apache的jdbcio连接器

、、、、

我正在尝试使用apache中可用的jdbcio连接器从mysql读取一些数据。我使用的是Python版本3.9.6和apache版本2.35.0import apache_beam as\Python\Python39\lib\site-packages\apach

浏览 24提问于2022-01-27得票数 0

1回答

在读取BigQuery数据集python* SDK的数据流中指定区域*

、、

我正在尝试读入数据流中的bigquery数据集。它找不到我指定的bigquery数据集/表。job_name是预处理-ga360-190523-130005 modules versions are apache-beam 2.5.0,google-cloud-dataflow2.0.0, google-cloud-bigquery 0.25.0 搜索了文档，找不到为什么会发生这种情况的答案。(beam.io.BigQue

浏览 33提问于2019-05-23得票数 1

2回答

当我将environment_type设置为“`PROCESS`”时，Beam* SDK线束仍然试图启动对接器*

、

根据 "--runner=portableRunner", "--sdk_worker_parallelism", "--environment_c

浏览 18提问于2022-06-02得票数 1

回答已采纳

1回答

使用Apache* Beam *python创建google cloud数据流模板时的RuntimeValueProviderError

、、、

在数据流模板中是否仍然不支持python 3.7，或者python3中的staging语法是否发生了变化？的完整存储库以前也有过类似的问题，但我不确定它有多相关，因为这是在python2.7中完成的，但我的模板在2.7中运行良好，但在3.7中失败了 How to create Google Cloud Dataflow__ror__(pvalueish, self.label) File "/usr/local/lib&#x

浏览 57提问于2020-01-28得票数 5

1回答

Apache从2.29.0升级到2.32.0

在2.29.0版本上，我有一个已经工作了一年的管道。然而，本周我们不能再构建了，因为这个已经从Redhat回购中删除了。我将管道升级为BeamVersion2.32.0。我们的管道使用SparkRunner，Spark的版本是: 3.2.0。然而，新的梁版本正在抛出一个异常。下面是我收到的错误和堆栈跟踪。有人知道我需要配置/更改什么才能让它再次工作吗？:593) at org.apache.beam

浏览 4提问于2022-07-12得票数 0

2回答

google-cloud-dataflow vs apache-apache

、

令人困惑的是，每个关于数据流的谷歌文档都说它现在是基于Apache光束的，并将我引导到光束网站。此外，如果我查找github项目，我会发现google dataflow项目是空的，并且所有的项目都转到apache see repo。假设我现在需要创建一个管道，根据我从Apache光束中读到的，我会这样做：from apache_beam.options.pipeline_options然而，如果我使用google-c

浏览 1提问于2017-06-16得票数 3

1回答

无法在单独的Flink集群上运行Apache。官方指示不起作用

、

我想在macOS上做这件事。 (1)启动一个Flink集群，该集群公开Rest接口(例如，默认情况下，重新定位主机:8081)。这是完整的输出： WARNING:root:Make sure that locally built Python SDK docker image has Python 3.8 interpreterINFO:root:Default Python</

浏览 1提问于2021-07-26得票数 0

1回答

在Kubernetes中运行Apache梁python管道

、、、

我试图在Kubernetes的脱机实例上使用flink运行管道。但是，由于我有带有外部依赖项的用户代码，所以我使用Python工具作为外部服务--这会导致错误(如下所述)。我用来启动beam的kubernetes清单：kind: Deployment name: beam-sdk replicas: 1 matchLabels:

浏览 1提问于2020-02-26得票数 7

回答已采纳

1回答

ApacheBeamSDK2.20.0的数据流错误

、、、

我正试图用Beam 2.20.0版本在Python3.7中构建一个Apache管道，该管道成功地部署在Dataflow上，但似乎没有做任何事情。import apache_beam as beamfrom apache_beam.options.pip

浏览 1提问于2020-05-17得票数 1

2回答

Apache :升级到2.5.0后的异常

、、

Java版本:8 Runner:数据流 at org.apache.beam.sdk.util.InstanceBuilder.buildFromMethod(InstanceBuilder.java:233) at org.apache.beam</em

浏览 1提问于2018-07-24得票数 0

1回答

使用add_value_provider_argument时数据流作业挂起

、、

我现在不得不对模板进行一些更改，我似乎在生成工作模板时遇到了问题，即使是在使用与以前相同的代码/版本的beam时。我的工作就是无限期地挂起--我试着离开一个工作，一个小时左右就超时了。我对'add_value_provider_argument‘的使用与这里的官方代码片段非常接近：https://github.com/apache/beam/blob/ma

浏览 19提问于2020-09-18得票数 0

3回答

Python:如何使用Apache光束连接到Snowflake？

、、、、

我看到BigQuery有一个内置的I/O连接器，但我们的很多数据都存储在Snowflake中。有没有连接到Snowflake的解决方法？我能想到的唯一办法就是使用sqlalchemy运行查询，然后将输出转储到云存储存储桶中，然后Apache-Beam就可以从存储在存储桶中的文件中获取输入数据。

浏览 22提问于2020-01-29得票数 3

回答已采纳

3回答

Apache光束是否需要互联网来运行GCP数据流作业

、、、、

代码中断是因为正在尝试代表apache-beam进行http连接。以下是我在运行代码时收到的错误消息。(connect timeout=15)')': /simple/apache-beam/ Could not find a vers

浏览 0提问于2019-05-18得票数 0

4回答

在google云平台中运行数据流时“找不到方案gs的文件系统”

、、、

当我在本地运行这个作业时，它运行得很好，但是在GCP上运行时，我得到了一个错误"java.lang.IllegalArgumentException:找不到方案gs的文件系统“。我在GCP的工作证明：2019-08-09_16_41_15-11728697820819900062(beam版本:2.14.0) 我试过梁版本的2.12.0

浏览 1提问于2019-08-10得票数 5

回答已采纳

2回答

没有为方案hdfs - org.apache.beam.sdk.io.FileSystems.getFileSystemInternal(FileSystems.java:456)找到文件系统

、

我使用的是ClouderaEnterprise6.1.0版本的，在用SparkRunner读取或编写HDFS上的任何文件时，使用apache 2.11SDKS来解决这个问题。这个问题是在将Cloudera版本从5.14.0升级到6.1.0后出现的，在以前的版本中，它可以很好地处理下面的代码。; import org.apache.beam.runners.spark.SparkRu

浏览 0提问于2019-03-13得票数 2

2回答

使用Python处理Apache光束管道中的异常

、、、

我用python (在GCP Dataflow上)做了一个简单的管道，用来读PubSub和写大查询，但不能处理管道上的异常来创建替代流。local/lib/python2.7/dist-packages/apache_beam/runners/worker/sdk_worker.py", line 170, in <lambda>local/lib&#

浏览 14提问于2019-01-30得票数 5

回答已采纳

点击加载更多