我很难创建一个将发布/子源连接到大型查询接收器的dataflowRunner作业,方法是插入以下两个:
apache_beam.io.gcp.pubsub.PubSubSource
apache_beam.io.gcp.bigquery.BigQuerySink
在github上的beam/sdks/python/apache_beam/examples/streaming_wordcount.py (wordcount.py)示例中分别插入第59行和第74行。删除第61-70行并指定正确的pub/sub和bigquery参数之后,脚本在不构建管道的情况下运行时不会出错。
sidenote:脚本提到流管道支持在Python中不可用。但是,在beam文档中,它提到apache_beam.io.gcp.pubsub.PubSubSource仅适用于流( "apache_beam.io.gcp.pubsub模块“标题下的第一句:beam.io.gcp.pubsub)
发布于 2017-06-29 14:59:20
目前还不能在上进行流。
监视此变化量以了解其发生的日期:
(很快!)
https://stackoverflow.com/questions/44835150
复制