如何在SQL中使用groupby聚合函数

文章/答案/技术大牛

发布

1回答

如何在pyspark dataframe中将groupby转换为reducebykey？

、、、、

我已经用group by和sum函数编写了pyspark代码。我感觉性能受到了group by的影响。取而代之的是，我想使用reducebykey。但我是这个领域的新手。请在下面找到我的场景，Step2:输入列总数为15列，其中5列为关键字段，其余为数值。第四步:我已经使用了group by和sum函数。如何用spark方式和map和reducebykey选项来做类似的逻辑。from pyspark.

浏览 0提问于2017-09-21得票数 1

1回答

如何在streaming SQL中指定基于结构化流时间窗口

、、

我们正在使用结构化流来对实时数据执行聚合。我正在创建一个可配置的Spark作业，该作业给出了一个配置，并使用它对翻滚窗口中的行进行分组并执行聚合。我知道如何使用函数接口来做到这一点。下面是使用函数接口的代码片段 .withWatermar

浏览 0提问于2018-06-22得票数 1

1回答

当sum()列时，我得到错误AttributeError：'DataFrame‘对象没有属性'sum’

、、

----++-----+--------+| 5|Thailand|当我添加sum()函数以获得第一列'count‘的总数时，我得到了以下错误：我确实导入了from pyspark.sql.functions

浏览 3提问于2017-05-29得票数 1

2回答

Python pandas:等同于SQL的聚合函数？

、、

sum(Field1) as Field1, avg(Field1) as avg_field1, min(field2) as min_field2group by mykeygrouped = df.groupby('mykey')grouped.mean() 会计算所有字段的平均值。然而，我需要在不同的列上使用不同的聚合函数:在一些列上根本没有聚合函数，在其他列

浏览 1提问于2015-04-16得票数 1

2回答

、

我想在不同的聚合函数中对其进行groupby和聚合。现在我可以在productkey中分组，但在本例中，我必须按product和sex对它们进行分组。有没有办法做到这一点？

浏览 6提问于2020-04-23得票数 0

回答已采纳

1回答

用火花放电写自定义的联非新议程

、、、

在类似的行中，如线程的最后一部分所示，我提出了以下函数 StructField("keybloomfilter.set(df.value1) return pd.DataFrame([[gr]+[x]+[y]+[w]+[z]+[p]])

浏览 1提问于2019-04-04得票数 1

1回答

Spark DataFrame:多列上的多个聚合函数

、、

我有一个聚合函数列表，别名和其他JSON配置，如 "aggregation": [{ "sum": "alias_column_name1>)dataframe.<em

浏览 0提问于2018-10-17得票数 0

回答已采纳

2回答

将agroupby应用于数据后对齐索引

、

我从“熊猫10分钟”中读到了这样一个例子。0.857654 2.008154: 7 foo three 1.397533 1.050003print(df.groupby('A').sum()) #+RESULTS另一个例子是，按多个列分组构成了一个分层索引，我们同样可以应用

浏览 3提问于2019-09-27得票数 1

回答已采纳

1回答

Pandas GroupBy聚合不保留数据类型

我通过使用sum、max和min等函数将Pandas GroupBy和Groupby.agg用于我的数值列，但我注意到以前强加给我的列的数据类型(如np.int8、np.int16、np.int32)在GroupBy聚合后不会保留，实际上每一列都被覆盖为int64。Pandas版本1.1.5 我目前的解决方案是在完成groupby聚合后重新转换，这是一个已知的问题和/或有更好的解决方案吗？

浏览 19提问于2021-03-16得票数 1

回答已采纳

2回答

apache spark agg( )函数

、

scala> scholor.groupBy("age").sum("base").show /*with out agg */ scala> scholor.groupBy("age").

浏览 1提问于2017-04-08得票数 4

回答已采纳

1回答

如何在azure逻辑应用中使用聚合转换？

、、

我正在使用Azure Logic App从Azure SQL数据库获取记录列表。我正在使用odata过滤器来解决我的问题。当我像下面这样传递$filter、$select和其他参数时，一切都很好用有人能帮助我如何在Azure

浏览 16提问于2021-10-20得票数 0

1回答

将MS-SQL查询转换为激发SQL时出现的问题

、、

我想在Spark中转换这个基本的SQL查询from StudentGrades我已经尝试过使用这样的窗口函数$"Arrest" ).groupBy($

浏览 2提问于2018-09-05得票数 0

回答已采纳

2回答

在Pandas Groupby函数中重命名列名

、、、、

( Q1)我想做一个groupby、SQL风格的聚合和重命名输出列。order by ID, Region( Q2)在函数中可以直接使用列名而不用引号括起来吗？我知道变量名是字符串，所以必须在引号中，但是我看到如果在dataframe函数之外使用它们，并且作为属性，我们

浏览 1提问于2013-10-22得票数 75

回答已采纳

1回答

Spark (JAVA) -具有多个聚合的dataframe groupBy？

、

我正在尝试用JAVA在Spark上写一个groupBy。在SQL中，这将如下所示FROM table但是什么是Spark/JAVA假设变量SQL是一个数据帧，以查看与table查询的关系。("id") 这显然是不正确的，因为您不能对列使用像.count或.max这样的聚合函数，只能对数据帧使用<e

浏览 15提问于2016-07-15得票数 8

回答已采纳

3回答

将pyspark groupedData对象转换为spark Dataframe

我的试探性的：grouped_df.groupby(["C"]).count()'GroupedData' object has no attribute 'groupby' 我想我应该首先将分组的对象转换为pySpark DF。

浏览 2提问于2017-10-18得票数 7

回答已采纳

1回答

在不安装graphlab的情况下在SFrame中分组

、、、、

如何在SFrame中使用groupby操作，无需安装graphlab。import graphlab.aggregate as agg user_rating_stats = sf.groupby(key_columns='user_id','std_rating': agg.STD('rating&#x

浏览 14提问于2016-07-21得票数 4

回答已采纳

1回答

如何在groupBy聚合函数中使用BitwiseOR操作

、、

我如何在pySpark Dataframe.groupBy中使用bitwiseOR作为聚合函数，有像sum这样的内置函数可以为我做这件事吗？

浏览 21提问于2019-08-22得票数 0

回答已采纳

1回答

将Python Groupby和aggregate转换为Postgres SQL

、、、

假设我的PostgresSQL数据库中有一个名为cnms_table的表，它等同于我在Python脚本中创建的一个名为cnms_df的熊猫数据帧。在Python dataframe中，我能够使用groupby和agg根据特定的列/字段对数据帧进行汇总和聚合，从而创建一个名为sum_df的新汇总数据帧。sum_df_prelim = cnms_df.groupby(['Region', 'State', 'CO_FIPS

浏览 16提问于2021-10-11得票数 0

回答已采纳

1回答

按组从agg函数创建新列

、、、

我使用下面的代码将一个大型数据集总结为聚合级别，以便绘制图形。a = b.groupBy("year","month").agg(sum("dollar")/sum("value").alias("pct"))Py4JJavaError: An error occurred while calling o16779.select. : org.apache.spark.<e

浏览 1提问于2020-03-11得票数 0

回答已采纳

3回答

如何使用spark sql过滤特定聚合的行？

、、、、

通常，一个组中的所有行都被传递给一个聚合函数。我想使用一个条件来筛选行，以便只将组中的一些行传递给聚合函数。使用可以进行这样的操作。我想用Spark SQL DataFrame (Spark 2.0.0)做同样的事情。. // some data frame max("B").where("B"

浏览 1提问于2016-09-27得票数 12

点击加载更多

如何在pyspark dataframe中将groupby转换为reducebykey？

如何在streaming SQL中指定基于结构化流时间窗口

当sum()列时，我得到错误AttributeError：'DataFrame‘对象没有属性'sum’

Python pandas:等同于SQL的聚合函数？