发布

数据仓库技术

专栏成员
116
文章
47286
阅读量
29
订阅数
开窗函数 spark sql实现累加、累积计数、累乘
前面对开窗函数做了基础知识介绍,今天我们对其应用做详细介绍。通过开窗函数实现累积求和(累加),累积计数,累乘(累积相乘)。
数据仓库晨曦
2025-03-04
730
详解spark开窗函数
窗口函数(Window functions)又称分析函数或开窗函数,它允许你在不改变原始行的情况下,对一组相关的行(称为“窗口”)进行计算和分析。与普通的聚合函数(如SUM、AVG等)不同,窗口函数不会将多行合并为一行,而是为每一行返回一个计算结果,同时保留原始行的详细信息。通常写法为func()over(),详细语法如下:
数据仓库晨曦
2025-02-26
500
留存专题-1~180日留存数仓设计
计算1~180天留存率数据仓库设计方案。在实际业务场景中可能是计算 1、3、7、14、30、60、90、180日留存这种方式,也可能是1~180连续每天都要计算,当然极端情况下也会有1~360日留存的计算。主要讲述建设思路。文章以1~7日数据进行计算了展示,计算180日留存时需要调整数据周期。
数据仓库晨曦
2024-12-19
1160
留存专题-计算1~7日留存率
我们使用留存专题-基础数据生成数据,计算2024-01-01日~2024-01-07日新增用户的1日、2日、3日、4日、5日、6日、7日留存率
数据仓库晨曦
2024-12-19
730
留存专题-基础数据生成
为完成留存数据,我们需要先准备相关数据,包含三份数据:日期维表、新增用户表、用户登录表。生成数据涉及不少知识点,之前基本都写过了,这里不再赘述。涉及函数如下。 space() split() posexplode() random() datediff() pow()
数据仓库晨曦
2024-12-19
740
LeetCode面试SQL-给定数字的频率查询中位数
在此表中,数字为 0, 0, 0, 0, 0, 0, 0, 1, 2, 2, 2, 3,所以中位数是 (0 + 0) / 2 = 0。
数据仓库晨曦
2024-10-14
910
LeetCode面试SQL-平均工资-部门与公司比较
给如下两个表,写一个查询语句,求出在每一个工资发放日,每个部门的平均工资与公司的平均工资的比较结果 (高 / 低 / 相同)。
数据仓库晨曦
2024-10-10
1210
LeetCode面试SQL-获取最近第二次活动
该表不包含主键 该表包含每个用户在一段时间内进行的活动的信息 名为 username 的用户在 startDate 到 endDate 日内有一次活动
数据仓库晨曦
2024-10-09
1030
连续问题SQL-券商场景-合并用户连续交易日期
本题是券商实际工作中的场景,依旧是连续问题,解决方法在一文搞懂连续问题中都有提到,但是该题目相对较难,是几个问题的混合。
数据仓库晨曦
2024-10-09
1400
LeetCode面试SQL-用户购买平台
写一段 SQL 来查找每天 仅 使用手机端用户、仅 使用桌面端用户和 同时 使用桌面端和手机端的用户人数和总支出金额。
数据仓库晨曦
2024-09-24
1000
LeetCode面试SQL-学生地理信息报告
一所美国大学有来自亚洲、欧洲和美洲的学生,他们的地理信息存放在如下 student 表中。
数据仓库晨曦
2024-09-24
790
行列转换-横表竖表互相转换
原始数据中是一个竖表,每个学生的每个学科一行数据,对其转换成一张横表,即表中学生id为主键,包含语文、数学、英语三列,列值为对应学科分数。
数据仓库晨曦
2024-09-12
1140
sparksql-unpivot子句介绍
今天给大家带来spark的一个新的知识点,UNPIVOT,这个不是函数,是一个子句。
数据仓库晨曦
2024-09-11
1210
sparksql-pivot子句介绍
PIVOT 子句用于数据透视。我们可以根据特定列的值获取聚合值,这些值将转变成在 SELECT 子句中使用的多个列。PIVOT 子句可以在表名或子查询之后指定。
数据仓库晨曦
2024-09-10
1240
常见大数据面试SQL-物流线路分析SQL
该题目难度不高,但是计算起来比较麻烦,但是实际业务中这样的加工相对常见。面试遇到这样的题目,说明团队相对比较务实,但是日常工作可能也是类似繁琐内容较多。在面试过程中,从内容理解和解题上,都属于内容量比较多的。
数据仓库晨曦
2024-09-10
1520
常见大数据面试SQL-分组连续累积计数
有temp表包含A,B两列,请使用SQL对该B列进行处理,形成C列,按A列顺序,B列值不变,则C列累计计数,C列值变化,则C列重新开始计数,期望结果如下
数据仓库晨曦
2024-09-10
1390
常见大数据面试SQL-近30天连续登陆3天以上次数-非开窗
有用户登录记录,已经按照日期去重。求近三十天,用户连续登录超过3天的次数,一直连续登录算一次,有间隔然后重新计算次数, 要求不能用开窗
数据仓库晨曦
2024-08-27
1880
列转行-lateral view outer posexplode及posexplode_outer多列对应转行
现有骑手id,订单id列表,订单配送距离列表,配送费列表,其中订单id、配送距离、配送费一一对应。
数据仓库晨曦
2024-08-27
1140
列转行-posexplode多列对应转行
现有骑手id,订单id列表,订单配送距离列表,配送费列表,其中订单id、配送距离、配送费一一对应。
数据仓库晨曦
2024-08-21
1210
列转行-explode_outer及lateral view outer
现有骑手id,订单id列表,订单配送距离列表,配送费列表,其中订单id、配送距离、配送费一一对应。
数据仓库晨曦
2024-08-20
1260
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档