在数据分析中,GROUP BY
是一种用于将数据表中的数据按照一个或多个列进行分组的操作。对于连续变量(如数值型数据),我们可以根据这些变量的值来分组;而对于分类变量(如字符串或类别型数据),我们可以将其作为行来进行分组。
GROUP BY
允许对每个分组应用聚合函数,如最小值(MIN)、最大值(MAX)、平均值(AVG)等,从而快速获取数据的汇总信息。假设我们有一个销售数据表 sales_data
,包含以下字段:product_id
(产品ID)、category
(产品类别)、price
(价格)、quantity
(数量)。
问题:我们想要知道每个产品类别的最小价格、最大价格和平均价格。
SQL查询示例:
SELECT
category,
MIN(price) AS min_price,
MAX(price) AS max_price,
AVG(price) AS avg_price
FROM
sales_data
GROUP BY
category;
解释:
SELECT
子句中列出了我们想要选择的字段,包括分类变量 category
和聚合函数 MIN(price)
、MAX(price)
、AVG(price)
。FROM
子句指定了数据表的来源。GROUP BY
子句根据 category
字段对数据进行分组。SELECT
子句中使用了不支持的聚合函数或错误的聚合函数。通过以上解释和示例,希望你能更好地理解 GROUP BY
在连续变量和分类变量上的应用及其相关优势、类型和应用场景。
领取专属 10元无门槛券
手把手带您无忧上云