我正在开发一个从Google Cloud Storage (GCS)目录中读取大约500万个文件的管道。我将其配置为在Google Cloud Dataflow上运行。问题是,当我启动管道时,它需要几个小时来“计算”所有文件的大小: INFO:apache_beam.io.gcp.gcsio:Starting the size estimation of the input当我使用较小的输入数据集(2个文件<
我想读取一个GZIP压缩的帕奎特文件从GCS到BigQuery使用Python SDK for Apache光束。但是,apache_beam.io.parquetio.ReadFromParquet方法似乎不支持从压缩文件中读取。根据源代码,压缩类型被硬编码为UNCOMPRESSED。有没有一个技巧来读取压缩的拼图文件,而不需要在GCS中预先解
通过错误获得有关此大小问题的通知时,将提供以下信息: the size of the serialized JSON representation of the pipeline exceeds the现在使用此参数,确实会导致dataflow runner将额外的dataflow_graph.pb文件上载到通常的pipeline.pb文件旁边的登台位置。我证实它确实存在于gcp存储中。这可以通过使用字数统计示例来重现: mvn archetype:generate \
-D
我在Apache上工作非常新,在这里我尝试编写一个管道,从Google BigQuery中提取数据,并使用Python格式将数据写入GCS。使用beam.io.read(beam.io.BigQuerySource()),我可以从BigQuery读取数据,但不确定如何以CSV格式将其写入GCS。import logging
import apache_beam as be
我试图使用beam将csv文件中的数据从GCS传输到BQ,但是当我调用NoneType时,我得到了一个WriteToBigQuery错误。while running 'Write to BQ/_StreamToBigQuery/StreamInsertRows/ParDo(BigQueryWriteFn)']import apache_beamas beam
from