定义Apache beam管道时，管道后面的字符串意味着什么？

lines = pipeline | 'ReadFromText' >> beam.io.ReadFromText( 'path/to/input-*.csv') 在上面的代码中，字符串'ReadFromText‘的意义是什么？

浏览 14提问于2021-08-13得票数 0

回答已采纳

1回答

流事件到大查询-数据流-向时间戳列插入纪元时间戳 (int)的最佳方法

、、、、

我试图使用dataflow apache (python)将流中的事件写入大查询表中，而时间戳格式存在问题。做这件事最好的方法是什么？我可以在不解析每个事件的情况下这样做吗？我可以声明收到的时间戳的格式吗？

浏览 1提问于2021-09-22得票数 1

1回答

Apache : PubsubReader在NPE中失败

我有一个波束管道，从PubSub读取并在应用一些转换后写到BigQuery。管道与NPE一致失败。我使用的是beam 0.6.0版本。知道我可能做错了什么吗？我正在尝试使用DirectRunner运行管道。java.lang.NullPointerException at org.apache.beam.sdk.io.PubsubUnboundedSource$PubsubReader.ackBatch((UnboundedReadEvaluatorF

浏览 4提问于2017-03-23得票数 0

回答已采纳

1回答

Google Cloud Dataflow自定义模板-仅在流式管道中使用

、、、

我正在尝试为Google的数据流创建一个自定义模板。我只想从Pubsub打印一些消息到控制台。当我尝试暂存我的模板时，我得到一个错误，云发布/订阅仅可用于流式管道，而我的管道旨在成为流式管道:x。我正在做什么，使我的管道批处理而不是流式？import apache_beam as beam from apache_beam.options.pipeline_options

浏览 31提问于2020-11-05得票数 1

回答已采纳

1回答

Apache Beam S3文件系统扩展总是需要aws区域输入，甚至在我的项目中不使用AWS的其他管道中也是如此

、、、

S3部件独立工作，但现在当我尝试运行其他只使用GCP的管道时，它抛出一个异常，因为我没有提供S3选项(即使我不需要它们)-下面的错误消息。当我只使用GCP资源(或者我做错了什么)时，我需要指定一个AWS区域，这似乎有点不对劲。有没有办法在初始化时只注册用于特定管道的文件系统，而不是全面注册所有文件系统？我使用Maven打包Jar文件，然后通过传入该管道的特定main来执行该管道(即)。这是当我尝试运行我的管道时得到的

浏览 45提问于2019-01-05得票数 1

回答已采纳

1回答

IOError:没有基于文件模式的文件

、

注意:第一个管道确实创建了“./name”文件，但是第二个管道似乎无法从中读取。(greetings_file)) skip_header_lines=skip_header_lines) File "&#

浏览 2提问于2017-03-27得票数 1

回答已采纳

3回答

如何解决类apache_beam.internal.clients.dataflow.dataflow_v1b3_messages.TypeValueValuesEnum?上的酸洗错误

、、

当我远程运行我的数据管道时，引发了一个PicklingError :数据管道是使用Python的Beam编写的，我正在Google Cloud Dataflow上运行它。当我在本地运行它时，管道工作得很好。下面的代码生成PicklingError:这应该会重现这个问题from apache_beam.transforms im

浏览 0提问于2016-10-26得票数 4

1回答

Python梁错误"InvalidSchema:没有为“找到连接适配器时，请求api url有空格

、、、

=headers)url = "https://host:port/car('power%203')/speed"InvalidSchema请求在管道外工作，但在管道中失败。在DirectRunner上从WSL2 UbuntuCondapyhton3.9环境或云jupyter执行的管道仍然返回相同的错误。请在下面找到完整的管道示

浏览 4提问于2022-11-18得票数 0

回答已采纳

1回答

Apache + Databricks笔记本-映射函数错误

、

我试图在DataBricks笔记本上使用Apache运行一个简单的管道，但是我无法创建任何自定义函数。下面是一个简单的例子：from apache_beam.options.pipeline_options import PipelineOptions(options=pipeline_options) as p: p | "Create data"

浏览 7提问于2022-08-16得票数 0

1回答

Dataflow中的自定义Apache Beam Python版本

、、

我想知道是否有可能有一个自定义的阿帕奇光束Python版本运行在谷歌数据流。在公共存储库中不可用的版本(在撰写本文时: 0.6.0和2.0.0)。例如，来自Apache Beam官方存储库的HEAD版本，或与此相关的特定标签。我知道打包定制包(例如私有的本地包)的可能性，正如官方中所描述的那样。这里有关于如何为其他一些脚本做这件事的答案是。例如，对于最新的可用标记，其PiP处理的链接将是：git+https://github.com/apache/beam

浏览 16提问于2017-07-27得票数 4

回答已采纳

1回答

如何从非流数据流中实现PubSub

、、、

当DataFlow工作完成时，我想通知GAE。因此，我试图创建以下管道： p | ReadFromDatastore| 'send to pubsub' >> WriteStringsToPubSub(GCS_TOPIC)但是，上面的代码会产生以下错误： ValueError: PubSubPayloadSink目前只能在流

浏览 0提问于2018-06-07得票数 0

回答已采纳

1回答

收到PubSub通知时触发数据流作业

、、、

我已经用Apache光束写了一个数据流管道，让你对代码有一个基本的了解： Job= ( |"cretae">>beam.Create(["message"]) |"job 2" >> beam.ParDo(dofn2()) |"job 3" >>

浏览 24提问于2021-09-03得票数 0

回答已采纳

2回答

无法在数据流笔记本上的Jupyter笔记本中导入JsonPickle

、、、、

我正在用Python语言在Apache Beam上构建一个管道，并使用Dataflow上的笔记本进行原型设计。在尝试加载JSON时，我意识到我在beam.io.ReadFromText(file_pattern, coder=JsonCoder())中使用的JSON编码器(基本上是JSON.loads())不能规范化这意味着集合中的一些列只是以字符串的形式嵌套的JSON。因此，为了规范化JSON，我决定使用JsonPickle。但是，即使在安装并重新启动内核之后，模块

浏览 30提问于2020-05-14得票数 1

1回答

通过python脚本创建和暂存数据流模板

、、

我是第一次接触数据流，在从我的python脚本创建模板时遇到了一些麻烦。我的脚本仅用于测试，我从存储桶中读取文件并将其再次写入存储桶中。这是一个非常简单的脚本。但是当我运行创建数据流模板的命令时，我没有得到任何模板。

浏览 9提问于2018-07-27得票数 0

回答已采纳

1回答

避免在Beam* Python SDK中重新计算所有云存储文件的大小*

、、

问题是，当我启动管道时，它需要几个小时来“计算”所有文件的大小： INFO:apache_beam.io.gcp.gcsio:Starting the size estimation of the inputINFO:apache_beam.io.gcp.gcsio:Finished computing size of: 5480000 files INFO:apache_beam.io.gcp.gcsioINFO:apache_<e

浏览 19提问于2020-03-27得票数 3

回答已采纳

1回答

使用自定义ptransform构造数据流流道梁管道时的递归错误

、、

我用beam在本地建造并设法运行了一条令人满意的管道，我准备将这项工作发送给DataFlow。# my_script.py import apache_beam as beam</em

浏览 4提问于2021-08-12得票数 2

1回答

将PCollection与apache_beam合并

、、

我正在尝试使用apache_beam运行管道(最后将到达DataFlow)。管道应如下所示：我格式化来自PubSub的数据，将原始结果写入first，运行ML模型，在从ML模型获得结果后，我想用第一次写入FS时获得的ID更新Firestore。管道代码一般如下所示： # read and format

浏览 16提问于2020-03-11得票数 1

1回答

与字符串列表相比，带有dicts列表的beam.Create()非常慢

、、、、

我正在使用Dataflow处理一个包含大约400万个功能(约2GB )的Shapefile，并将几何图形加载到BigQuery中，因此在管道启动之前，我将shapefile特性提取到一个列表中，并使用beam.Create(features)初始化管道。JSON字符串预解析的python当使用选项1时，beam.Create(features当传入一个dicts列表

浏览 5提问于2020-12-30得票数 0

2回答

google-cloud-dataflow vs apache-apache

、

令人困惑的是，每个关于数据流的谷歌文档都说它现在是基于Apache光束的，并将我引导到光束网站。此外，如果我查找github项目，我会发现google dataflow项目是空的，并且所有的项目都转到apache see repo。假设我现在需要创建一个管道，根据我从Apache光束中读到的，我会这样做：from apache_beam.options.pipeline_options然而，如果我使用google-cloud-dataflow，我会得到错误：no module named

浏览 1提问于2017-06-16得票数 3

1回答

在Flink集群上运行的Apache光束管道失败

、

我尝试在本地部署的Flink Docker集群上部署一个Apache光束管道。(FlinkExecutionEnvironments.java:139)org.apache.beam.runners.flink.FlinkRunner.run(FlinkR

浏览 80提问于2020-08-20得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

流事件到大查询-数据流-向时间戳列插入纪元时间戳 (int)的最佳方法

Apache : PubsubReader在NPE中失败

Google Cloud Dataflow自定义模板-仅在流式管道中使用

Apache Beam S3文件系统扩展总是需要aws区域输入，甚至在我的项目中不使用AWS的其他管道中也是如此

IOError:没有基于文件模式的文件

如何解决类apache_beam.internal.clients.dataflow.dataflow_v1b3_messages.TypeValueValuesEnum?上的酸洗错误

Python梁错误"InvalidSchema:没有为“找到连接适配器时，请求api url有空格

Apache + Databricks笔记本-映射函数错误

Dataflow中的自定义Apache Beam Python版本

如何从非流数据流中实现PubSub

收到PubSub通知时触发数据流作业

无法在数据流笔记本上的Jupyter笔记本中导入JsonPickle

通过python脚本创建和暂存数据流模板

避免在Beam* Python SDK中重新计算所有云存储文件的大小*

使用自定义ptransform构造数据流流道梁管道时的递归错误

将PCollection与apache_beam合并

与字符串列表相比，带有dicts列表的beam.Create()非常慢

google-cloud-dataflow vs apache-apache

在Flink集群上运行的Apache光束管道失败

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐