首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

MySQL入门学习笔记——七周数据分析师实战作业

本篇推送主要涉及SQL语言中较为复杂子查询与函数嵌套。...我思路是使用DATE_FORMAT函数输出购买记录月度标签,然后使用聚合函数group by函数对月度标签进行聚合(计数),使用count计数时要考虑重复购买情况,进行客户去重,获取真实人数。...3、统计男女用户消费频次是否有差异 这个问题被我给复杂化了,我分别求了一次男性消费频次女性消费频次!思路就是先将用户表订单表做联结,然后过滤性别为男记录并通过分组返回单一消费者记录。...这个题目是我耗费我时间最长一道题目,其实逻辑上肯定大家都知道需要筛选出那些消费次数大于1次记录,然后通过单个购买者所有消费记录中最远消费时间与最近消费时间做时间差即可。...我个人大体思路就是,最内层首先做两个表联结(联结同时过滤掉缺失值未支付记录),然后中间层对出生日期进行分类编码(1970~1979为70后,以此类推)。

1.8K70

Mysql基础篇--面试优化数据库对象使用技巧

by with rollup 使用group by with rollup 子句可以检索更多分组聚合信息,不仅仅获取group by 检索聚合信息,还能够检索本组类整体聚合信息。...mysql> select date_format(payment_date,'%Y-%m'),staff_id,sum(amount) from payment group by date_format...mysql> select date_format(payment_date,'%Y-%m'),staff_id,sum(amount) from payment group by date_format...表很大,分割后可以降低在查询需要读数据索引页数,同时也降低了索引层数,提高查询速度 表数据本来就具有独立性,例如记录各个地区数据或不同时期数据,特别是有些数据常用,有些不常用数据 需要把数据放到多个介质上...分割表,水平拆分,垂直拆分, 逆规范化保证数据完整性手段 批处理维护,是指对冗余列或派生列积累一定时间后,运行批量处理作业进行派生列更改 使用应用逻辑完成,这就要在同一个事物中,对涉及表进行增删改,因为同一个逻辑在必须在所有应用中使用维护

73520
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    MySQL-复杂查询及条件-起别名-多表查询-04

    ) as max_date ......group by 分组 分组之后应该做到最小单位是组,而不应该再展示组内单个信息 MySQL 中分组之后,只能拿到分组字段信息,无法直接获取其他字段信息 但是你可以通过其他方法(如:聚合函数)间接地获取...min avg sum count 能够获取到分组之后除了分组依据以外字段,将该字段作为函数条件 # 强调:只要分组了,就不能够再“直接”查找到单个数据信息了,只能获取到组名 # 2.获取每个部门最高工资...(推荐使用能够标识数据字段,比如id字段) select post,count(id) from emp group by post; group_concat 分组拼接记录字段 能够获取到分组之后除了分组依据以外字段...emp as t1 inner join # 根据分组求出最新入职员工 (select post,max(hire_date) as max_date from emp group by post) as

    3.8K20

    从100万条数据中找到极大值所在行

    解决方案 一般涉及获取极大值/极小值所在行记录需求都可以用窗口函数来解决。 先对表数据按照客户来源渠道分组,再对分组内数据按照授信时间降序排序,序号排在第一位记录就是我们要找记录。...然后,t 再 t_credit 关联,获取到 t 中 100 条记录明细信息(由于可能存在授信时间重复记录,因此最终结果有可能超过 100 条)。...每个渠道最后授信时间可通过下面的 SQL 得到: SELECT source_ch, MAX(credit_ts) AS max_credit_ts FROM t_credit GROUP...BY source_ch t t_credit 关联获取到完整结果: SELECT t_credit.* FROM t_credit INNER JOIN (SELECT...source_ch, MAX(credit_ts) AS max_credit_ts FROM t_credit GROUP BY source_ch

    63720

    【mysql】聚合函数

    聚合(或聚集、分组)函数,它是对一组数据进行汇总函数,输入是一组数据集合,输出单个值。 1. 聚合函数介绍 什么是聚合函数 聚合函数作用于一组数据,并对一组数据返回一个值。...[在这里插入图片描述] 1.2 MINMAX函数 可以对任意数据类型数据使用 MIN MAX 函数。...SELECT MIN(hire_date), MAX(hire_date) FROM employees; [在这里插入图片描述] 1.3 COUNT函数 COUNT(*)返回表中记录总数,适用于任意数据类型...HAVING 在 GROUP BY 之后,可以使用分组字段分组中计算函数,对分组结果集进行筛选,这个功能是 WHERE 无法完成。另外,WHERE排除记录不再包括在分组中。...如果我们使用是左连接、右链接或者全连接,就会涉及到外部行,也就是在虚拟表 vt1-2 基础上增加外部行,得到虚拟表 vt1-3。

    3.3K10

    【MySQL高级】Mysql并发参数调整及常用SQL技巧

    该参数值应该根据设置最大连接数 max_connections 以及每个连接执行关联查询中涉及最大数量来设定 : max_connections x N ; 4.4 thread_cache_size...截取字符串,返回从指定位置开始指定长度字符换 REVERSE 字符串反转(逆序)函数,返回与原始字符串顺序相反字符串 日期函数 函数名称 作 用 CURDATE CURRENT_DATE...获取年份,返回值范围是 1970〜2069 TIME_TO_SEC 将时间参数转换为秒数 SEC_TO_TIME 将秒数转换为时间,与TIME_TO_SEC 互为反函数 DATE_ADD ADDDATE...两个函数功能相同,都是向日期添加指定时间间隔 DATE_SUB SUBDATE 两个函数功能相同,都是向日期减去指定时间间隔 ADDTIME 时间加法运算,在原始时间上添加指定时间 SUBTIME...时间减法运算,在原始时间上减去指定时间 DATEDIFF 获取两个日期之间间隔,返回参数 1 减去参数 2 DATE_FORMAT 格式化指定日期,根据参数返回指定格式值 WEEKDAY

    2K30

    Mysql基本语句

    数据库管理系统(database manage system) 我们平常不是直接从数据库里面获取数据,而是通过使用数据库管理系统来访问数据库从而获取数据,这些软件称为DBMS(由于习惯我们平时所说数据库指就是数据库管理系统...列行(column and row) 表结构类似于excel表格,表列对应excel列,表行对应excel行 ? 5....超键、候选键、主键、外键 主键:唯一标识数据单个或多个字段 外键:存在他表中主键 候选键:可以作为主键但没有设为主键单个或多个字段 超键:候选键集合 9....BY 字段1 HAVING ORDER BY # WHERE,用于分组前,WHERE过滤是行 # SELECT,字段只能加 GROUP BY 后面的字段聚合函数...max(id) FROM GROUP BY id,time ) 并 / 差 / 交集查询 SELECT (字段1, 字段2, ...)

    3.2K10

    Python 基于pymongo操作Mongodb学习总结

    collection.insert_many(posts) # insert_many函数返回 pymongo.results.InsertManyResult 对象 print(res.inserted_ids) # 获取插入记录...聚合管道 # 查询文档,按visitor_num降序排序,限制返回文档数为10--获取visitor_num top 10记录 for post in collection.find().sort(...') # 获取最小 visitor_num print('min_visitor_num', min_visitor_num) # 获取最大值 max_visitor_num = collection.find_one...备注:笔者实践时发现,无法自动创建数据库集合,会提示授权认证失败。 MongoDB中数据使用JSON样式文档表示(存储)。在PyMongo中,使用字典来表示文档。...降级PyMongo版本:如果不能升级MongoDB服务器,可以尝试降级PyMongo版本,以匹配MongoDB服务器版本。

    23810

    数据分布决定SQL写法

    ) trade_date from t_trade group by cstno) b where a.cstno = b.cstno and a.trade_date=b.trade_date )...执行计划: 老虎刘注: 在没有掌握分析函数写法前,SQL红色部分是group by后取其他字段信息一个较为常见写法,也是这个SQL执行效率差根本原因。...我们再来分析一下这两种改写优缺点: 1、plsql改写方式,适合在t_customer表比较小,而且t_customer t_trade 两表记录数比例比较大情况下,执行效率才会比分析函数改写高一些...我们再来看看,陈老师这段plsql,是不是可以用单个sql来实现,我做了一个尝试,SQL代码如下: merge into t_customer c using ( select tc.cstno,...对于本例改写前SQL,应该还有很多开发人员DBA在使用,在了解了分析函数使用方法后,原SQL低效写法就应该被彻底抛弃了。

    40310

    ClickHouse 资源隔离

    1:max_memory_usage:在单个ClickHouse服务进程中,运行一次查询限制使用最大内存用量,默认值为10G; 2:max_memory_usage_for_user:在单个ClickHouse...服务进程中,以用户为单位进行统计,单个用户在运行查询时,限制使用最大内存用量,默认值为0,即不做限制; 3:max_memory_usage_for_all_queries:在单个ClickHouse...-- -- max_memory_usage 限制查询最大使用内存 log 存储表数据量 max_concurrent_queries 同时处理最大请求数 max_connections 最大连接数...Result_rows 允许返回行数 Errors 允许异常总数 -- -- max_memory_usage 限制查询最大使用内存 log 存储表数据量 max_concurrent_queries...log_queries 设置发送到ClickHouse查询将根据query_log服务器配置参数中规则记录

    2.8K52

    MySQ--语句大全

    *(n|y)$'; 集合查询:max 、min 、avg 、sum 、count 、group_concat 。...by分组涉及模式: 设置sql_mode为only_full_group_by,意味着以后但凡分组,只能取到分组依据, 不应该在去取组里面的单个元素值,那样的话分组就没有意义了,因为不分组就是对单个元素信息随意获取...C:[ ] 指定范围 ([a-f]) 或集合 ([abcdef]) 中任何单个字符: 1,like'[CK]ars[eo]n' 将搜索下列字符串:Carsen、Karsen、Carson ...*(n|y)$'; 集合查询:max 、min 、avg 、sum 、count 、group_concat 。...group by分组依据 # 分组后取出是每个组第一条数据 3.聚合查询 :以组为单位统计组内数据>>>聚合查询(聚集到一起合成为一个结果) # max 最大值 # 每个部门最高工资

    1.7K10

    Apache Spark 2.2中基于成本优化器(CBO)

    从详细统计信息中,我们传播统计信息到别的操作子(因为我们从下往上遍历查询树)。传播结束,我们可以估计每个数据库操作子输出记录输出纪录大小,这样就可以得到一个高效查询计划。...需要注意是在ANALYZE 语句中没必要指定表每个列-只要指定那些在过滤/join条件或group by等中涉及列 统计信息类型 下表列出了所收集统计信息类型,包括数字类型、日期、时间戳字符串...对于单个操作符作为列,另一个操作符为字符串情况,我们先计算等于 (=) 小于 (<) 算子过滤选择。其他比较操作符也是类似。...我们计算下在 A.k = B.k 条件下A join B 记录数 ,即 num(A IJ B) = num(A)*num(B)/max(distinct(A.k),distinct(B.k)) num...去年,我们针对CBO umbrella JIRA SPARK-16026总共处理了32个子任务,涉及到50多个补丁7000多行代码。

    2.1K70

    Django学习笔记之Queryset详解

    ,通过自定义modelinstance可以获取外键实体等,它方法都是记录级方法(都是实例方法,貌似无类方法),不要在里面定义类方法,比如计算记录总数,查看所有记录,这些应该放在自定义manager...对于onetomany反向manytomany,要用prefetch_related,它返回是多条关联记录,是QuerySet。...select_related()不能用于OneToMany反向连接,ManyToMany,这些都是model一条记录对应关联表中多条记录。...annotate相当于aggregate()group by结合,对每个group执行aggregate()函数。而单独aggregate()并没有group by。...,它们每个元素包含若干主表关联表字段,不包含任何实体关联实例,这种情况要用values()values_list();第四种:返回model instance;第五种:单个值,如aggregate

    2.7K30

    最近面试太难了。

    ) c; 注意:有时同一个用户最大连续日期可能存在多个,这里以第一个为准;如果需要获取全部最大日期可以使用rank或dense_rank窗口函数,可以保证天数一致时排名一致。...@prev_date,@r,@r:=@r+1) group_id, -- 日期变化大于1天(不连续)改变r值 @prev_date:=`date` -- 记录前一条记录日期 FROM( SELECT...,INTERVAL 1 DAY)=`date`,@r,@r:=@r+1) group_id, -- 日期变化大于1天(不连续)改变r值 @prev_date:=`date` -- 记录前一条记录日期...:=role_id -- 记录前一条记录用户ID FROM( SELECT role_id, MIN(DATE) begin_date, MAX(DATE) end_date,...1 DAY)=`date`,@r,@r:=@r+1) group_id, -- 日期变化大于1天(不连续)改变r值 @prev_date:=`date` -- 记录前一条记录日期 FROM

    1.1K32

    Django中ORM操作

    前言 Django框架功能齐全自带数据库操作功能,本文主要介绍DjangoORM框架 到目前为止,当我们程序涉及到数据库相关操作时,我们一般都会这么搞: 创建数据库,设计表结构字段 使用 MySQLdb...MySQLvarchar数据类型 char varchar区别 : charvarchar共同点是存储数据长度,不能 超过max_length限制, 不同点是varchar根据数据实际长度存储...username = models.CharField(max_length=32) class Group(models.Model):...) 利用双下划线将字段对应操作连接起来 # 获取个数 # # models.Tb1.objects.filter(name='seven').count()...orm连表操作必须选拿单个对象,不像SQL中直接表表join就可以了) print(obj.cls.title) foreignkey 字段在哪个表里,哪个表里一个"空格"代表哪个表多个(一行) class

    4.8K10

    高效大数据开发之数据倾斜实践

    (device_id)过大导致,最大单个device_idpv去到了253万,排第二在51万,超过10000不到100条,因此要将这100多个device_id记录数都减少到10000条以下:...回到案例,这里需要增加一个随机数字段(0~200)先做一次group by,这样第一次group by限制最高key对应记录数在10000条左右,第二次group by每个key对应记录数就只会在200...B表全量表数量,经过直接关联发现只关联上维表10万cid,因此我解决思路如下:(1)尽量减少join操作记录量,因此可以先将10万关联得上cid存储到临时表,并且增加一个统计每个cidpvrow_num...指标,用于判断是否倾斜cid,这里设定单个cid超过100万行记录cid为倾斜cid。...,从而解决倾斜同时也不会导致关联数据量变少,如下图,对aaa发散4倍,bbb发散2倍,ccc、dddeee不作发散关联,此时左边关联最大key记录数为4,右边关联最大key记录数为2,从而解决了数据倾斜问题

    67050
    领券