在数据流作业中查找重复项- Python

文章/答案/技术大牛

发布

2回答

、、、

tree/master/examples/cloud-composer-examples/composer_dataflow_examples 我想做完全相同的事情，并且我已经创建了所有脚本，但我需要对数据流作业进行一点修改，以检查CSV中是否有任何重复的值，我希望将这些值注入Bigquery。这是数据流代码： """dataflow_job.py is a Dataflow pipeline which reads a del

浏览 4提问于2020-04-19得票数 1

回答已采纳

1回答

数据流flex模板作业尝试使用相同的job_name启动第二个作业(用于管道)

当未指定任何packages.Errors:和提供一个requirements.txt文件时，将成功启动Dataflow flex模板并生成一个图形，但由于缺乏安装私有activityWorkers 数据流作业的权限当给定一个数据流时(预先安装了依赖项)，数据流作业就会启动，但是它不会在同一个作业上运行管道，而是尝试使用相同的名称为管道启动一个数据流作业，这会导致error.Errors：重复的数据流</em

浏览 15提问于2022-10-18得票数 1

1回答

DataFlow工作程序运行时错误

、、

我正在运行一个数据流作业(jobid: 2018-03-13_13_21_09-13427670439683219454)。作业在1小时后停止运行，并有以下错误消息：Exception in worker loop:

浏览 1提问于2018-03-13得票数 1

回答已采纳

1回答

从数据流作业中删除Google存储中的文件

、、、、

我有一个在python3.7中用apache创建的数据流，在这里我处理了一个文件，然后我不得不删除它。该文件来自google桶，问题是当我使用DataflowRunner运行程序时，我的工作无法工作，因为Google python3.7环境中没有安装Google云存储API。你们知道吗，不使用这个API，我怎么才能删除数据流中的文件呢？我见过apache_beam模块，如，但我不知道如何使用它，也没有找到关于如何使用该模块的教程或示例。

浏览 4提问于2020-07-15得票数 1

回答已采纳

1回答

云调度器-地球-如何在CloudSheduler体内传递当前日期

、、、

我正在使用cloudScheduler来调度数据流作业。其中，我需要使用cloudsheduler body动态地将运行日期/运行时/当前日期传递给数据流作业。正在使用数据流作业代码中的Java选项读取主体参数。在cloudschduler中查找读取头X-CloudScheduler-ScheduleTime的语法 body =base64encode(<-EOT{ "jobNam

浏览 7提问于2022-03-23得票数 0

1回答

使用google-api-php-client-services在google cloud ml引擎中进行预处理

我正在使用google-api- PHP -client-services在google云中训练我的PHP网站的数据。如何使用这个库在中进行预处理？在PHP中有没有替代google-api-php-client与ml_engine交互的方法？

浏览 2提问于2017-07-21得票数 0

1回答

以编程方式编辑Dataprep配方

、、

我们有一个dataprep作业来处理输入文件并产生一个干净的文件。可以从Python代码(远程)编辑dataprep作业的配方吗？如果是，是否可以从Python代码触发dataprep作业？

浏览 1提问于2018-06-15得票数 1

2回答

可以监视GCS路径中的新文件吗？

、

我可以看到，您可以为Dataprep设置一个计划，但在导入设置中，我看不到它将如何处理新文件。这个是可能的吗？似乎是一个明显的需求--希望我错过了一些显而易见的东西。

浏览 4提问于2017-11-29得票数 6

回答已采纳

1回答

在数据流作业中安装Python包

、

在我的数据流(beam)工作流中，我使用来自Python的datetime包(在gcp上使用jupyter notebook )。当我用pip安装缺少的包时，一切都很好。现在我想在gcp上运行我的转换为数据流作业。我总是得到错误的"NAME ERROR“，因为datetime是未知的(当我使用Apache beam SDK for Python时得到这个错误)，有人能给我一个提示如何将Python包添加到数据流</e

浏览 1提问于2020-11-16得票数 0

1回答

运行一个n2标准2机器类型的数据流作业，该数据流作业将在任何时候只使用2 vCPU运行，还是可以自动缩放到配额限制。

、

关于机器类型的数据流作业，我有一个问题。我理解数据流使用默认机器类型n1-standard-1进行批处理，并且我们在亚洲有配额问题-- n1机器类型为South1。我们被要求使用N2机器类型代替。因此，在创建数据流模板时，甚至在从云shell运行数据流作业时，我将机器类型指定为--project <project> \ --region

浏览 3提问于2021-04-15得票数 0

回答已采纳

1回答

Flink:在jar文件中找不到程序的入口点类

、、、

然而，我得到的错误是，即使我在pom中添加了依赖项，程序入口点类也没有在jar中找到。</configuration> </plugins> </project> pom文件的原始版本可以在here似乎添加statefun-flink-distribution的额外依赖项没有任何效果。

浏览 237提问于2020-12-23得票数 2

3回答

数据流上的流重复数据消除|在数据流服务上运行服务

我想以窗口方式基于ID对数据流进行重复数据消除。我们收到的流有，我们希望在N小时的时间窗口内删除匹配的数据。我提出的另一种方法是在一个时间窗口内使用groupBy，这样一个用户在一个时间窗口内的所有数据都落入同一组中，然后在每个组中，我们使用单独的密钥存储服务，我们通过密钥查找重复项。如果有保证，我们可以按用户If分组，然后在每个组中比较每个用户的sessionid 2如果可行，我

浏览 0提问于2016-11-12得票数 1

2回答

如何从GCP中的云函数调用用Go编写的数据流作业

、、、、

我的目标是创建一种机制，当一个新文件上传到云存储中时，它将触发一个云函数。最终，这个云函数将触发一个云数据流作业。在用Go编写的Cloud中，问题是Apache中没有定义template-location变量。这就是我不能创建数据流模板的原因。而且，由于没有数据流模板，

浏览 0提问于2019-01-13得票数 4

回答已采纳

2回答

Apache梁DataFlow转轮抛出设置错误

、、

我们正在使用构建数据管道，并试图在Dataflow上运行，但是得到以下错误，python run.py \--runner=DataflowRunner \ --staging_location=gs://xyz/staging这条管道在DirectRunner中工作起来很有魅力，但在数据流</em

浏览 0提问于2018-03-23得票数 4

回答已采纳

1回答

数据流作业无法写入不同区域中的BigQuery数据集，即使区域设置为bigquery区域

、、

我们正在编写一个数据流作业，将数据从存储桶中的JSON写入到BigQuery数据集。存储桶和BigQuery数据集都位于区域X中。但是，在区域X中无法使用数据流端点。最近的区域是Y。因此，我已经将Dataflow作业区域设置为Y，但区域设置为X。因此，所有的计算实例都是在区域X中旋转的。但是，数据流作业仍然失败，错误如下：无法在不同位置读写:源: Y，目的地:

浏览 4提问于2020-03-05得票数 0

1回答

气流如何从python操作符创建数据流作业？

、、、、

当我通过命令行运行我的束流管道时，使用直接流道或数据流流道，它工作得很好.，我有两个选择，bash操作符或python操作符。但是我想要做的是作为python操作符运行它。因此，我正在导入气流dg文件中的模块，然后作为python操作符运行它。如果我使用本地运行程序，它也可以正常工作，但是当我将它更改为数据流运行程序时，在使用此错误在GCP数据流上创建作业后，它将失败。ImportError: No module n

浏览 3提问于2019-01-28得票数 0

2回答

Google Cloud Dataflow - Java SDK与Python

、、、、

考虑到这些任务，是否有使用Java 或Python 编写作业的建议？他们之间在性能和功能方面有什么明显的差异吗？提前谢谢你的时间！

浏览 3提问于2020-07-07得票数 0

回答已采纳

1回答

CloudFunction创建的数据流作业上的ModuleNotFoundError

、、、

我在使用CloudFunctions创建数据流作业时遇到问题。我在main.py上有：from module01import some_things 一切看起来都很好- CloudFunctions端没有错误，数据流</e

浏览 0提问于2020-09-30得票数 0

2回答

如何在python代码中向数据流传递--autoscaling_algorithm=NONE标志？

、、、、

我正在使用python dataflow.projects().templates().launch()函数启动数据流模板，以启动从jdbc到bigquery模板的数据流作业。如何在这个python函数中传递"--autoscaling_algorithm=NONE“标志？

浏览 1提问于2020-11-19得票数 0

2回答

SSIS查找转换未找到匹配项

、、

我正在使用Lookup查看我的目标表中是否已经存在该CustomerID。在目标表中，CustomerID被定义为BigInt。似乎在Lookup中没有查看缓存。最终，我希望将不匹配的记录写入目标表，并对匹配的记录进行进一步处理。有什么想法吗？

浏览 0提问于2018-03-20得票数 0

点击加载更多