使用apache beam从GCS读取文件时面临性能问题

、、、

我尝试使用通配符从gcs路径读取数据。我的文件是bzip2格式的，并且在gcs路径中有大约300k的文件使用相同的通配符表达式。我使用下面的代码片段来读取文件。} catch (IOException e) { }但性能非常差，以目前的速度使

浏览 10提问于2020-02-07得票数 2

回答已采纳

1回答

避免在Beam* Python SDK中重新计算所有云存储文件的大小*

、、

我正在开发一个从Google Cloud Storage (GCS)目录中读取大约500万个文件的管道。我将其配置为在Google Cloud Dataflow上运行。问题是，当我启动管道时，它需要几个小时来“计算”所有文件的大小： INFO:apache_beam.io.gcp.gcsio:Starting the size estimation of the input当我使用较小的输入数据集(2个文件<

浏览 19提问于2020-03-27得票数 3

回答已采纳

1回答

Apache光束Python SDK -从GCS读取GZIP压缩的拼图文件

、、、

我想读取一个GZIP压缩的帕奎特文件从GCS到BigQuery使用Python SDK for Apache光束。但是，apache_beam.io.parquetio.ReadFromParquet方法似乎不支持从压缩文件中读取。根据源代码，压缩类型被硬编码为UNCOMPRESSED。有没有一个技巧来读取压缩的拼图文件，而不需要在GCS中预先解

浏览 2提问于2019-11-25得票数 0

1回答

从Apache光束中的GCS读取文件

、、

我需要从GCS存储桶中读取文件。我知道我必须使用GCS API/客户端库，但我找不到任何与此相关的示例。我在GCS文档中提到了这个链接：。但并不能真正起到作用。

浏览 5提问于2017-08-28得票数 7

回答已采纳

2回答

如何标记数据流中的已读文件？

、、、、

我正在使用数据流从GCS存储桶中读取文件，并对其进行一些转换。为此，我使用了beam.io.ReadFromText()方法。标记已经读取的文件的最佳方式是什么，以便相同的文件不会被数据流重复读取？

浏览 5提问于2020-07-02得票数 1

1回答

中读取CSV的有效方法

、、、、

在阅读了一些关于StackOverflow的问题后，我一直在使用下面的代码来读取beam上的CSV文件。read the file from GCS我使用它而不是ReadFromText，因为当字段值中有换行符时，它会失败

浏览 10提问于2022-06-02得票数 2

1回答

Apache /flink runner未在EMR中执行(从GCS访问文件)

、、、、

我有一个apache beam管道来索引一些数据到elasticsearch。我尝试使用spark或Flink runner在AWS EMR中运行作业。当我试图在本地设置的独立spark上运行作业时，管道可以处理本地磁盘中的源文件，但是，当我从GCS读取文件时，它不能工作。当我在EMR集群中运行时，这是相同的。jar位于spark jar路径和hadoop jar路径中管道的maven的pom文件

浏览 6提问于2020-08-05得票数 0

2回答

通过Apache梁读取G驱动器的文件

、、、

我正在尝试使用Apache从Google获取文件。我试过了with beam.Pipeline() as pipeline:lines = (pipeline | beam.Create(filenames))这将返回一个类似于PCollection[[19]:

浏览 9提问于2022-11-12得票数 0

4回答

用Python从逐行读取巨大的JSON

、、、

我的GCS 上有~300 GCS文件，最终我试图将它导入BigQuery，但是它有一些错误的数据结构(我是mongoexport从MongoDB获得的) import json from pprint

浏览 5提问于2018-10-09得票数 3

回答已采纳

1回答

如何从Google Cloud Storage读取zip文件

、、、、

我们目前正在向云PubSub发布有关来自谷歌云存储的SFTP到达的事件，我们可以很容易地实时处理这些事件，但当我们尝试从谷歌云存储读取ZIP文件时，我们会遇到一个问题。apache beam的Python端使得它与API中的这个类非常无缝，例如：为了能够相对轻松地<em

浏览 0提问于2017-10-02得票数 0

1回答

从GCS读取输入和模式作为运行时参数的数据流模板

、、

来自gcs和bigquery数据链接表的输入文件和架构文件位置。此模式还需要传递给beam.io.WriteToBigQuery 这是我第一次使用Dataflow，我正在努力让它工作。当gcs位置作为

浏览 2提问于2019-08-07得票数 1

2回答

让Dataflowrunner与--experiments=upload_graph一起工作

、

通过错误获得有关此大小问题的通知时，将提供以下信息： the size of the serialized JSON representation of the pipeline exceeds the现在使用此参数，确实会导致dataflow runner将额外的dataflow_graph.pb文件上载到通常的pipeline.pb文件旁边的登台位置。我证实它确实存在于gcp存储中。这可以通过使用字数统计示例来重现： mvn archetype:generate \ -D

浏览 43提问于2019-04-24得票数 5

回答已采纳

1回答

使用Google python读取一组xml文件

、

我试图从GCS桶中读取XML文件的集合，并处理它们，其中集合中的每个元素都是一个字符串，表示整个文件，但我找不到一个关于如何实现这一点的好例子，也无法从主要关于Java版本的Apache文档中理解它。谢谢托默P= beam.Pipeline() 但是现在我看到了这种方法给了

浏览 6提问于2018-08-22得票数 3

回答已采纳

1回答

PubSub流作业在本地运行程序中不工作

、、、

;import org.apache.beam.sdk.options.Default;import org.apache.beam.sdk.options.PipelineOptions; importorg.apache.be

浏览 12提问于2022-02-03得票数 0

2回答

读取GCS* blob，其中文件名来自apache *beam中以前的p-集合。

、、、、

我正在尝试读取一个GCS blob，其中文件名来自apache束中的以前的p集合。代码示例如下所示。pubsub = (p | "Read from Topic" >> ReadFromPubSub(topic=topic) |"decode bytes" >>beam.Map(lambda element: element.decode('utf-8')) # b'"gs:&

浏览 0提问于2021-05-09得票数 0

1回答

从GCP桶中流大文件超过1小时最大云运行限制

、、、

我有一个大文件，其中包含一个GCP桶中的几百万行，我从Cloud实例中流到一个pub/sub。云运行的最大超时时间为1小时，没有足够的时间来处理整个文件，是否有其他选择或更好的方法来架构/处理GCP桶中的大量数据？边想: npm包@google-cloud/storage有能力去寻找文件的一个特定部分吗？或者我可以增加CPU的数量来做一些事情，比如使用像Go这样的语言使用多线程来处理文件吗？

浏览 5提问于2022-09-16得票数 1

1回答

Bigquery加载JSON错误“无法将值转换为字符串”

、、

ignore_unknown_values \ nov2020.test \如果出现此错误，它将失败：我不想用--max_bad_records，跳过这些记录，我认为如果不使用自动检测，我就可以把所

浏览 2提问于2020-11-24得票数 3

1回答

GCS桶与数据流VM之间的读写文件

、

我正在尝试从GCS (路径: gs:// bucket _name)中读取文件，并将其加载到Dataflow VM文件夹(带有路径/tmp/file名称)。另外，我还需要将另一个文件从Dataflow VM文件夹复制回GCS。有人能对此提出建议吗？

浏览 14提问于2021-08-25得票数 0

回答已采纳

2回答

使用Apache以CSV格式将BigQuery结果写入GCS

、、、

我在Apache上工作非常新，在这里我尝试编写一个管道，从Google BigQuery中提取数据，并使用Python格式将数据写入GCS。使用beam.io.read(beam.io.BigQuerySource())，我可以从BigQuery读取数据，但不确定如何以CSV格式将其写入GCS。import logging import apache_beam as be

浏览 1提问于2018-10-22得票数 6

回答已采纳

2回答

GCP数据流- NoneType在WriteToBigQuery()期间的错误

、、

我试图使用beam将csv文件中的数据从GCS传输到BQ，但是当我调用NoneType时，我得到了一个WriteToBigQuery错误。while running 'Write to BQ/_StreamToBigQuery/StreamInsertRows/ParDo(BigQueryWriteFn)']import apache_beamas beam from

浏览 1提问于2020-09-09得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

避免在Beam* Python SDK中重新计算所有云存储文件的大小*

Apache光束Python SDK -从GCS读取GZIP压缩的拼图文件

从Apache光束中的GCS读取文件

如何标记数据流中的已读文件？

中读取CSV的有效方法

Apache /flink runner未在EMR中执行(从GCS访问文件)

通过Apache梁读取G驱动器的文件

用Python从逐行读取巨大的JSON

如何从Google Cloud Storage读取zip文件

从GCS读取输入和模式作为运行时参数的数据流模板

让Dataflowrunner与--experiments=upload_graph一起工作

使用Google python读取一组xml文件

PubSub流作业在本地运行程序中不工作

读取GCS* blob，其中文件名来自apache *beam中以前的p-集合。

从GCP桶中流大文件超过1小时最大云运行限制

Bigquery加载JSON错误“无法将值转换为字符串”

GCS桶与数据流VM之间的读写文件

使用Apache以CSV格式将BigQuery结果写入GCS

GCP数据流- NoneType在WriteToBigQuery()期间的错误

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐