在Apache光束变换中对CSV列进行分组

我有一个大约有200列的csv。我想对每一列进行分组，这样我就可以获得一个col_name:column对的集合作为元素。如何使用beam python sdk来做这样的事情？

浏览 0提问于2018-08-23得票数 0

回答已采纳

1回答

使用Apache光束`GroupByKey`，构造一个新的列-- Python

、、、、

，我知道了如何使用pandas对多列进行分组并构造一个新的唯一id，但是如果我想在Python中使用Apache beam来实现该问题中描述的相同功能，我如何实现它，然后将新数据写入换行符分隔的JSON假设数据集存储在csv文件中。我是Apache beam的新手，这是我现在所拥有的： import pandasfrom apache_beam

浏览 14提问于2021-08-15得票数 0

回答已采纳

1回答

为什么在Scio中你更喜欢聚合而不是groupByKey？

、、、

发自：尤其是为什么人们更喜欢聚合而不是groupByKey呢？

浏览 1提问于2018-05-11得票数 1

回答已采纳

1回答

在光束变换中循环。使用Apache光束按顺序进行处理

、、

我想以30分钟为一批处理数据，然后分组/缝合30分钟的数据，并将其写入另一个表。我为每个员工提供了300个捆绑包，并且我需要使用有限的资源(~2Gi)处理至少50个员工。

浏览 14提问于2020-12-13得票数 0

1回答

对大型BigQuery响应进行分块，并使用Apache光束和数据流将这些分块保存在CSV文件中

、、

我刚接触Apache光束和Dataflow。我正在尝试获取大约20000条记录的大数据集。我必须将它分成1000条记录，并将这些分块保存在单独的CSV文件中。我知道如何从BQ读取和写入CSV，但不能理解如何使用波束变换来分块文件，或者是否有任何其他方法。fro

浏览 0提问于2021-05-08得票数 0

1回答

从带有panda分组的csv绘制

、、、、

如果我有一个包含4列的csv :我如何通过使用panda对第一列进行分组，将一列(x)的值与另一列(y)的平均值进行平均？我必须对第一列的每个值进行循环吗？我对实现方式不是很确定。例如，如果我有一个csv文件：a,2,2,5A、4、2、5b,2,3,3我想要一个有a，平均值(

浏览 1提问于2021-04-19得票数 1

1回答

.CSV文件拆分日期: 2016年1月16日至2016年1月16日1月1日

、、、、

我有一个包含列的.csv文件: NAME、DATE、INFO、STATS、MORE_INFO然后我需要过滤列: NAME、DATE、INFO这就是我遇到问题的地方，我需要获取我的.csv文件的' date‘列，该列列出的日期为1/16/2016，并将其分隔，以便我可以为过滤后的.csv输出文件仅选择月份。我需要获取2016年的名称、月份和信息，并将其保存到

浏览 1提问于2018-02-15得票数 1

1回答

如何按Pandas中列的计数对数据进行分组？

、、

我有一个CSV文件，有很多行和不同的列数。1 OLEG US FRANCE BIG1 NATA 18 FR2: 1 OLEG FR 18 FR3:

浏览 2提问于2022-05-23得票数 0

回答已采纳

1回答

如何使用python转置和删除表中的重复值？

| 1a | 3b | 5我想让它看起来像这样：b | 4 | 5 | 6import csvfrom itertools import izip csv.writer(open("fan1.csv",

浏览 2提问于2017-02-02得票数 3

回答已采纳

2回答

Apache / GCP数据流编码问题

、、

我在datalab“玩”apache /数据流。我正在尝试从gcs读取csv文件。input_file, coder='StrUtf8Coder')LookupError: unknown encoding: "THE","NAME","OF","COLUMNS" 似乎列的名称被解释为编码UnicodeDecodeError: 'utf8' codec can't

浏览 0提问于2018-08-20得票数 2

回答已采纳

1回答

Apache读取csv文件和groupbykey

、、、、

我有一个csv文件，我知道如何使用pandas实现这一点，基本上将csv作为一个df ->组按字段‘aaa’、‘bbb’读取数据，然后构造一个新的'id‘。我的问题是如何在Apache Beam中实现相同的功能，我以前从未使用过它，我试图使用Beam读取这个csv文件和分组多个记录，但是我对熊猫使用的相同功能不支持Beam，下面是我的当前代码：from apache

浏览 2提问于2021-08-16得票数 0

回答已采纳

1回答

我正在用Matlab编写一个相位恢复算法，我有一些不同的图像，它们代表了叶表面上不同毫升的水(叶表面水分)，需要插入到算法中，以查看在叶表面上每毫米水中发生的相变/相移，但我不太确定如何查看每个图像的相变/相移并进行比较。我是在图中表示相变/相移，还是有其他方法来查看相变/相移？我是绘制相位图还是得到一个值？我能得到一些帮助吗？谢谢。编辑:我现在正在做的主题是干涉测量，它会在每一张图像上产生条纹。这些条纹中的每一个都将包含相位值/信息，我的代码假定要做的是检索每个图像的相

浏览 4提问于2020-11-07得票数 0

1回答

使用Apache光束根据计数进行过滤

、、

我正在使用Dataflow和Apache Beam处理一个数据集，并将结果存储在一个有两列的无头csv文件中，如下所示： A1,aA3,bA5,c ...我想根据以下两个条件过滤掉某些条目： 1-在第二列中，如果某个值出现的次数小于N，则删除所有此类行。例如，如果N=10和c只出现了7次，那么我希望所有这些行都被过滤掉。2-在第二列中，如果某个值出现的次数超过M，则只保留M<

浏览 55提问于2020-06-12得票数 1

2回答

在Power BI中将行分组为列时出现问题

我在一个仪表盘上工作。我有一个数据源，其中包含一个用逗号分隔的值为的列。我正在尝试使用这些列对行进行分组。但是，默认情况下不对值进行分类。我就可以得到这样的东西：Line 2 - C, B, ALine 4 - B, CLine 6 - AA, B, C - Line 1 and Line 2 A - line 3 and l

浏览 0提问于2021-02-26得票数 0

1回答

使用SQL在两个或多个字段中提取具有重复值的行，但在另一个字段中提取不同的值。

、、

这是线程的后续，目标是用DuckDB对大于RAM的数据执行相同的操作。上面提到的线程中的dupKeyEx()函数代码只适用于适合于RAM的数据。"ID", "PIN"),目标是从上表中提取具有以下内容的行：在两个或多个字段中的值相同(此处名称和道布)；但在另一个字段中的不同值(在此ID)；以及

浏览 0提问于2021-10-14得票数 0

1回答

用tfx tensorflow变换连接数据集

、、

我正在尝试复制一些我在熊猫中做过的数据预处理到tensorflow变换中。我有几个CSV文件，我加入了这些文件，并与熊猫进行聚合，以生成一个培训数据集。现在，作为生产模型的一部分，我希望使用apache和tensorflow变换进行这种预处理。然而，我不太清楚如何在那里复制相同的数据操作。让我们来看看两个主要操作：JOIN dataset a和dataset b，以在dataset c上生成c和group by co

浏览 4提问于2022-03-25得票数 0

回答已采纳

1回答

Perl对csv中的列进行多行分组

、、

我有一个带有多行的csv (由，分隔)。csv有4列，其中前3列包含多行文本，而组by则发生在最后一列。输入csv内容：/tmp/test.tmp.csv"Input History",80,"HHMM28!c1!a[4!t/1c,:(Text1)/(Text2),32 以上csv由6条记录组成，记录2和4

浏览 1提问于2017-09-20得票数 0

回答已采纳

2回答

获取依赖于pandas数据帧中其他列的变量的平均值

、

基本上就是标题上的内容，我有一个csv，我把它转换成了一个熊猫数据帧，它是这样的： "ID","Name","Sex","Age","Height","Weight","Team","NOC","Games

浏览 9提问于2021-07-05得票数 0

回答已采纳

1回答

使用多个键加窗后的？

、、

我正在使用Apache构建管道，从谷歌提供的开始(该管道将在Google中执行)。5) a_id: 1 b_id: 1 c_id: 3 name: name5 value: 4我在我的1分钟窗口中接收到这组数据，我想按a_id、b_id和c_id对它们进行分组，并对行进行计数，因此我希望这是聚合结

浏览 0提问于2019-05-07得票数 0

回答已采纳

1回答