文章/答案/技术大牛

发布

首页视频118_尚硅谷_即席数仓_Druid对比其他框架

118_尚硅谷_即席数仓_Druid对比其他框架

2022-12-022022-12-02 16:02:32播放29

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷大数据项目之电商数仓/4.视频/118_尚硅谷_即席数仓_Druid对比其他框架.avi

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
好，接下来呢，我们来看一下德鲁伊跟之前我们学过的P，嗯，Specialle kidding electric，其实还有一个是in color这么几个框架之间的一个对比，因为咱们学了这么多框架，那大家我什么时候用什么框架？啊，直接去了是吧，啊直接去了。那我们来看啊，解决这个问题啊，选型问题。画这张图画了一下啊，我们来看一下，首先对比的项目，包括德鲁伊kal ES，这都是当前非常主流的大数据分析框架啊，非常非常主流，那来看第一个，首先从这个亚秒级响应。也就说这个速度上，那德鲁伊支持麒麟，支持反系统这些它们的速度。
01:00
比不上这个啊，虽然说很快，但是跟这个德鲁一和麒麟还有一定的差距，因为麒麟是预计算对不对，我提前已经算好了，那我去了就拿结果了，你这个你再快诶也是基于内存，是不是也得算一下啊，也得算一下啊，那麒麟呢，呃，这个德鲁一呢，它也是，它也支持一定的预计算啊，所以说它不快，OK，那再往下。百亿级的数据集，就数据量非常非常庞大，那这些框架都很优秀，百亿级的都能扛得住，那再时候对circle的一个支持。嗯，你说能不能写circle口，那这个德语一呢开发中，嗯，目前我试了一下还OK啊，但是语法支持的不那么特别全，那这里面ES不行啊，ES不行啊这些意思，那再来往下离线这块。离线运算这些所有框架全部OK啊，都可以选，那再来那么实时呢。
02:00
实时这一块德鲁一没得说，肯定OK，那这个kding啊，他正在开发中，我看了一个最新版本的应该是可以了啊，其实应该是可以了啊，支持实时的，然后呢，这个目前不行啊，但实时的不行，但只上及时的查啊好，那part不行不行啊，ES可以啊。实施这块啊，OK，那还有一个呢，叫精确的基求，所以说这个课题构非常非常精确，那都有一对不起啊，它很粗糙，虽然说快快的前提是舍弃了一定的精度，那K你这个精度OK啊，因为它是预计算啊，我是提前把东西算好了，而且算的会很精确啊，那part没问题，你part没问题，Part没问题，ES差点意思啊，ES差点意。那这时候多表join的一个使用，那德鲁一用不了。啊，参与不了，那P没问题，Pressle没问题，Depar没问题，Sponsor没问题，ES差一点意思，嗯，那正好gd bc for BI，比如说像这种BI可视化工具，他们之间的一个集成成构，那都容易差一些，呃，PD没问题，就是可视化展示的啊，连接第三方这种没问题ES啊，差点意思啊，这些。
03:20
好，那下面怎么选第一个德斗一，它是一个实时处理时序数据的o lat数据库，这没问题，实时处理的分析引擎，因为它的索引首先是按照时间分片，后面会给大家讲它的原理啊，它是按照时间计分的，这是导致了他查询速度快的原因在这。那还有查询的时候也是按照时间线去入流的，相当于提前建了索引啊，索引呢是按照时间来见。正好是Kitty。核心的就是一个Q，是一种易计算技术，基本思路呢，预先对数据做多维，所以查询时只扫描索引，而不访问原数据，从而剔出。啊，它不计算了，已经计算完了，拿回来用了。
04:09
重要的是，Crystal。他没有使用大部分场景下have换一个数量机，其中关键技术就是所有的处理都是基于内存完成的。那再来，其实这个跟排非常类似，也是基于内存预算的啊，速度快，但是呢，它支持的数据源没有S多啊，所以。好，那后面的这个SPA你们目前还没学啊，它也是一个O问T分析引擎，基本思路呢，是增加机器的内存，提高B行预算啊这种方式来提高翻译速度。那再之后ESES最大的特点呢，使用的是倒排索引啊，倒表所有问题啊，ES在实际获取或聚极使用资源上比德鲁音要高啊，就是在这个数据获取或者积极用的这个职业绝大多数这个ES是用于什么呢？站内搜索就类似于那个搜索条，嗯，那这种功能里面你输入一些关键字啊，嗯，都是用ES。
05:14
那好，框架的选型，从这个超大数据的查询效率上看，你是谁查的最快，第一快的是等于，因为它的精度不是特别高，而且还产生了一定的运算，而且还是基于内存的分布式集群，那所以说它的速度最快。快它就超一些啊，记住然后之后呢，就是这个K啊，给一级串差异速度的效率啊，然后。SPA这样一个顺序啊，那从支持的这个数据源种类来说是最多的啊，然后之后呢，都一，因为它只支持单表对吧？啊，就是单表的一个查询啊，你看你怎么去呃选择啊，根据不同场景去选择不一样的，你看你追求的快还是什么，但是真正在企业开发中我见到的哈。
06:10
都有。啊，也就说我都安装在那个集群上，那这个产品经理提什么样的需求，我就用什么样的框架，比如说德鱼这边我实时跑的麒麟这边呢，该一计算一计算啊，产品经理临时来的任务，该用用去查对吧，来18号这种定时的任务，每天我还正常的跑。啊，这样的就是绝大多数任务我全能扛得住，没有任何问题对吧，只不过我是要呃搭几个服务器对吧？嗯，扔一些件资源在里面，他只要正常的跑就行了，好，这是框架的一个对比选型哈。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据项目之电商数仓

（29/142）

9分33秒

01_尚硅谷_数仓项目介绍

400

3分18秒

02_尚硅谷_数仓采集_用户行为采集课程介绍

360

15分26秒

03_尚硅谷_数仓采集_数仓的概念

340

4分16秒

04_尚硅谷_数仓采集_项目需求

390

8分42秒

05_尚硅谷_数仓采集_项目技术选型

410

12分33秒

06_尚硅谷_数仓采集_系统数据流程设计

380

4分49秒

07_尚硅谷_数仓采集_框架版本选型

360

5分28秒

08_尚硅谷_数仓采集_框架版本具体型号

390

9分7秒

09_尚硅谷_数仓采集_服务器选型

340

21分24秒

100_尚硅谷_业务数仓_DWS层之用户行为宽表

450

10分21秒

101_尚硅谷_业务数仓_需求九：GMV成交总额

490

10分17秒

102_尚硅谷_业务数仓_需求十：ADS层之新增用户占日活跃用户比率

390

12分58秒

103_尚硅谷_业务数仓_需求十一：ADS层之用户行为漏斗分析

410

22分50秒

104_尚硅谷_业务数仓_用户购买商品明细表（宽表）

420

14分14秒

105_尚硅谷_业务数仓_需求十二：ADS层品牌复购率

330

27分9秒

106_尚硅谷_业务数仓_需求十三：求每个等级的用户对应的复购率前十的商品排行(学生分享)

420

26分37秒

107_尚硅谷_业务数仓_数据可视化

380

14分47秒

108_尚硅谷_业务数仓_Azkaban安装

380

16分23秒

109_尚硅谷_业务数仓_GMV指标获取的全调度流程

360

6分34秒

10_尚硅谷_数仓采集_集群资源规划设计

370

13分5秒

110_尚硅谷_业务数仓_拉链表理论

380

29分13秒

111_尚硅谷_业务数仓_拉链表制作

330

24分37秒

112_尚硅谷_业务数仓_业务数仓项目总结

330

1分24秒

113_尚硅谷_业务数仓_即席数仓课程介绍

370

10分20秒

114_尚硅谷_即席数仓_Presto简介

370

22分13秒

115_尚硅谷_即席数仓_Presto安装及使用

350

5分51秒

116_尚硅谷_即席数仓_Presto优化

330

7分40秒

117_尚硅谷_即席数仓_Druid概念、特点、场景

370

6分51秒

118_尚硅谷_即席数仓_Druid对比其他框架

290

11分24秒

119_尚硅谷_即席数仓_Druid框架原理

370

12分41秒

11_尚硅谷_数仓采集_测试集群服务器规划

440

5分5秒

120_尚硅谷_即席数仓_Druid数据结构

390

14分50秒

121_尚硅谷_即席数仓_Druid安装

280

18分53秒

122_尚硅谷_面试题_总体架构

360

41分22秒

123_尚硅谷_面试题_技术框架

350

22分0秒

124_尚硅谷_面试题_用户行为、业务数据、即席查询

340

36分54秒

125_尚硅谷_面试题_开发经验

380

3分28秒

126_尚硅谷_CDH数仓_课程介绍

390

4分7秒

127_尚硅谷_CDH数仓_CM简介及架构

330

20分4秒

128_尚硅谷_CDH数仓_CM安装环境准备

380

30分4秒

129_尚硅谷_CDH数仓_CM、Hadoop、Zookeeper安装

290

13分18秒

12_尚硅谷_数仓采集_埋点数据基本格式

430

6分17秒

130_尚硅谷_CDH数仓_采集Flume的安装

330

7分48秒

131_尚硅谷_CDH数仓_Kafka安装

400

3分53秒

132_尚硅谷_CDH数仓_测试Flume和Kafka安装

300

3分25秒

133_尚硅谷_CDH数仓_消费Flume配置完成

380

9分49秒

134_尚硅谷_CDH数仓_Hive、Oozie、Hue安装

390

3分29秒

135_尚硅谷_CDH数仓_用户行为数仓ODS层导数据

360

9分22秒

136_尚硅谷_CDH数仓_用户行为数仓完结

380

3分8秒

137_尚硅谷_CDH数仓_业务数据生成

430

15分37秒

138_尚硅谷_CDH数仓_业务数仓完结

400

6分34秒

139_尚硅谷_CDH数仓_Oozie执行前准备

340

7分15秒

13_尚硅谷_数仓采集_事件日志数据（上）

350

10分23秒

140_尚硅谷_CDH数仓_Oozie任务编写及运行

270

5分24秒

141_尚硅谷_CDH数仓_即席查询数仓搭建Impala

350

5分58秒

142_尚硅谷_CDH数仓_Spark安装及总结

430

13分26秒

14_尚硅谷_数仓采集_事件日志数据（下）

350

28分13秒

15_尚硅谷_数仓采集_日志生成代码编写

370

7分5秒

16_尚硅谷_数仓采集_Logback日志打印控制

400

11分17秒

17_尚硅谷_数仓采集_服务器准备

360

23分41秒

18_尚硅谷_数仓采集_Hadoop安装

340

2分53秒

19_尚硅谷_数仓采集_项目经验之HDFS多目录配置

350

5分19秒

20_尚硅谷_数仓采集_项目经验之支持LZO压缩配置

370

9分38秒

21_尚硅谷_数仓采集_项目经验之基准测试

380

8分3秒

22_尚硅谷_数仓采集_项目经验之HDFS参数调优

400

6分19秒

23_尚硅谷_数仓采集_Zookeeper安装

430

9分14秒

24_尚硅谷_数仓采集_项目经验之ZK集群启动停止脚本

380

6分33秒

25_尚硅谷_数仓采集_生成测试日志

260

2分2秒

26_尚硅谷_数仓采集_集群日志生成启动脚本

310

6分39秒

27_尚硅谷_数仓采集_集群时间同步修改脚本

350

2分7秒

28_尚硅谷_数仓采集_集群所有进程查看脚本

340

16分15秒

29_尚硅谷_数仓采集_每日回顾

360

7分5秒

30_尚硅谷_数仓采集_日志采集Flume安装

340

9分19秒

31_尚硅谷_数仓采集_Flume组件及配置

380

11分24秒

32_尚硅谷_数仓采集_日志采集Flume配置分析

400

26分57秒

33_尚硅谷_数仓采集_ETL拦截器

380

11分15秒

34_尚硅谷_数仓采集_分类型拦截器

400

16分15秒

35_尚硅谷_数仓采集_日志采集Flume启动停止脚本

280

7分4秒

36_尚硅谷_数仓采集_Kafka集群安装

410

12分6秒

37_尚硅谷_数仓采集_Kafka集群启动停止脚本

310

9分22秒

38_尚硅谷_数仓采集_Kafka Manager安装及脚本

360

11分29秒

39_尚硅谷_数仓采集_项目经验之Kafka压力测试

330

4分1秒

40_尚硅谷_数仓采集_项目经验之Kafka机器数量计算

420

23分59秒

41_尚硅谷_数仓采集_消费Kafka数据Flume

330

2分38秒

42_尚硅谷_数仓采集_项目经验之Flume内存优化

400

7分9秒

43_尚硅谷_数仓采集_项目经验之Flume组件

400

19分28秒

44_尚硅谷_数仓采集_采集通道启动停止脚本

350

3分2秒

45_尚硅谷_数仓采集_调试经验

390

35分45秒

46_尚硅谷_数仓采集_面试题（Linux、Shell、Hadoop）

410

22分44秒

47_尚硅谷_数仓采集_面试题（Flume、Kafka）

360

38分31秒

48_尚硅谷_用户行为数仓_每日回顾

370

3分50秒

49_尚硅谷_用户行为数仓_用户行为数仓课程介绍

330

8分24秒

50_尚硅谷_用户行为数仓_为什么要分层

390

9分12秒

51_尚硅谷_用户行为数仓_数仓分层

300

2分26秒

52_尚硅谷_用户行为数仓_数据集市与数据仓库概念

320

1分11秒

53_尚硅谷_用户行为数仓_数仓命名规范

300

15分44秒

54_尚硅谷_用户行为数仓_Hive&MySQL安装

390

17分44秒

55_尚硅谷_用户行为数仓_Hive运行引擎Tez

410

3分7秒

56_尚硅谷_用户行为数仓_项目经验之元数据备份

360

100

18分25秒

57_尚硅谷_用户行为数仓_ODS层启动日志和事件日志表创建

370

101

14分0秒

58_尚硅谷_用户行为数仓_ODS层加载数据脚本

400

102

29分44秒

59_尚硅谷_用户行为数仓_DWD层启动日志建表及导入数据

420

103

7分38秒

60_ 尚硅谷_用户行为数仓_DWD层启动表加载数据脚本

380

104

10分18秒

61_尚硅谷_用户行为数仓_DWD层事件基础明细表创建

350

105

22分2秒

62_尚硅谷_用户行为数仓_自定义UDF函数（解析公共字段）

430

106

34分5秒

63_尚硅谷_用户行为数仓_自定义UDTF函数（解析事件日志基础明细表）

360

107

6分57秒

64_尚硅谷_用户行为数仓_DWD层数据解析脚本

330

108

21分21秒

65_尚硅谷_用户行为数仓_DWD层事件表加载数据脚本

340

109

10分42秒

66_尚硅谷_用户行为数仓_今日回顾

330

110

13分49秒

67_尚硅谷_用户行为数仓_业务术语

390

111

14分54秒

68_尚硅谷_用户行为数仓_日期的系统函数

360

112

12分58秒

69_尚硅谷_用户行为数仓_每日活跃设备明细

380

113

12分6秒

70_尚硅谷_用户行为数仓_每周活跃设备明细

510

114

6分43秒

71_尚硅谷_用户行为数仓_每月活跃设备明细

290

115

3分50秒

72_尚硅谷_用户行为数仓_DWS层加载数据脚本

330

116

18分8秒

73_尚硅谷_用户行为数仓_需求一：ADS层日活、周活、月活用户数

290

117

9分24秒

74_尚硅谷_用户行为数仓_每日新增设备明细表

350

118

3分34秒

75_尚硅谷_用户行为数仓_需求二：ADS层每日新增设备表

400

119

11分0秒

76_尚硅谷_用户行为数仓_用户留存分析

350

120

12分44秒

77_尚硅谷_用户行为数仓_1、2、3、n日留存用户明细

360

121

12分41秒

78_尚硅谷_用户行为数仓_需求三：ADS层留存用户和留存比率

360

122

22分3秒

79_尚硅谷_用户行为数仓_新数据准备

370

123

12分34秒

80_尚硅谷_用户行为数仓_需求四：沉默用户

380

124

18分43秒

81_尚硅谷_用户行为数仓_需求五：本周回流用户数

410

125

6分13秒

82_尚硅谷_用户行为数仓_需求六：流失用户

320

126

9分0秒

83_尚硅谷_用户行为数仓_需求七：最近连续3周活跃用户数

390

127

19分59秒

84_尚硅谷_用户行为数仓_需求八：最近七天内连续三天活跃用户数

380

128

13分41秒

85_尚硅谷_用户行为数仓_用户行为数仓业务总结

440

129

12分47秒

86_尚硅谷_用户行为数仓_Hive企业面试题总结

370

130

6分35秒

87_尚硅谷_业务数仓_业务数仓课程介绍

340

131

16分53秒

88_尚硅谷_业务数仓_电商业务与数据结构简介

320

132

6分27秒

89_尚硅谷_业务数仓_表的分类

380

133

8分25秒

90_尚硅谷_业务数仓_同步策略

350

134

14分15秒

91_尚硅谷_业务数仓_范式理论

320

135

7分23秒

92_尚硅谷_业务数仓_雪花模型、星型模型和星座模型

350

136

3分11秒

93_尚硅谷_业务数仓_配置Hadoop支持Snappy压缩

320

137

11分19秒

94_尚硅谷_业务数仓_业务数据生成

330

138

7分14秒

95_尚硅谷_业务数仓_Sqoop安装及参数

380

139

14分25秒

96_尚硅谷_业务数仓_Sqoop导入数据

360

140

7分51秒

97_尚硅谷_业务数仓_ODS层建表及数据导入

260

141

12分59秒

98_尚硅谷_业务数仓_DWD层建表及导入数据

350

142

8分37秒

99_尚硅谷_业务数仓_需求讲解

370

118_尚硅谷_即席数仓_Druid对比其他框架

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐