文章/答案/技术大牛

发布

首页视频05_尚硅谷_数仓采集_项目技术选型

05_尚硅谷_数仓采集_项目技术选型

2022-12-022022-12-02 16:02:32播放41

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷大数据项目之电商数仓/4.视频/05_尚硅谷_数仓采集_项目技术选型.avi

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
好，接下来呢，我们来解决第一个问题，技术的选型啊，我们来选择哪些技术框架来解决这个问题。那像遇到这种问题，那首先得你得知道你为啥。你会哪些框架对吧，或者说你学过哪些框架，那比如说数据采集这一块。采集日志文件用什么？采集文件最熟的框架就是对吧，哎，模式最熟的，那采完之后。啊，为了这个消除，我可以采用卡不卡啊，那也就是说这两个框架就能保证把日志文件干掉，比如说file类型的文件，那还有一类文件是哪里的文件呢？业务数据库里的用什么导子库啊，子库数据在导呢，百里的数据啊，导入到have或者是as啊，这都是没有任何问题的。好，那这是一套，那我未来后面又列出了两个，那个是干嘛呢。
01:07
Erk对吧，ER其中的一个方向elk，那E是。ES啊，设计对吧，可视化对吧化，其实这是一套专门为运营人员做的一套框架。啊，他不需要懂什么代码啊，只需要把这些配置好啊，负责采集数据，ES负责分析查询啊，图形化一拓善啊，一查询这个指标就OK了，那T呢，就负责可视化展示啊，这一套非常简单的啊，我说过之前这一套房产描会的话，15K左右的服装啊，12~15K。就好了，就能搞定啊。那这套框架为什么要列着呢？你说你日后这个给老板提这个技术方案的时候。要提两套啊，要提两套要有对比，那我们肯定是倾向于。
02:05
我们熟悉的对吧，啊，那另一套为什么要提呢。有对比啊，而且万一老板要选择这一套。你说那我得需要时间对吧？啊前面这一套呢，我是通过经验已经验证过了，是OK的，那你非要选这个，那没办法，那我可以你给我点一周到两周的时间去研究就OK了，对吧。同时这还有一个对的差，对的差是解决什么问题呢？它类似于S库，他在目前市场上的份额，它应该是五五开，非常非常主流的一个观察电子差啊，日后我一定要给大家大家讲啊，我们要讲的这个非常重要的啊，但是它的原理差不多啊，原理差不多。在B哈上有专用的这个源码啊源码，而且还有非常详细的说明文档啊，这个手册非常详细，中文的看懂了啊，那下边解决完这个采集通道，下面我们来解决数据的存储。
03:09
那存储到我这里面分两块啊，一块呢是数仓的内容，我们都要给它存储到。N减N减S，同时我们要把这个分析完的结果数据用来可视化的存储到MYSQL里面，为什么要这么去存呢？因为它有各自的特点。而蛋白存储的数据。大满生个存储的数据小，但是它是不是快了啊，太快OK啊，那后面还用到了像H啊列存储，它是基于这个跟K。可以去出来啊，我们这里面没用答案，你们日后再讲实时项目的时候，呃，可以用h base啊，或者用ESES，那还有后面你的项目过程当中会用到raish啊，还有mango DB mango DB一般呈什么数据呢？爬虫爬回来的。
04:01
数据啊，往往都存在这个发光地面里面啊。那下面呢，是这个计算这一块啊，传输存储都解决完了，那下面来解决数据计算。那数据计算这块，你们其实现在学的。就这一个have吧，啊这个have，那我们就用这个have，但是这个have比成它是MR实战运算速度太慢了啊，那换一个引擎叫TT它有个优势，它的数据存储，呃，计算过程不落它，你说中间结果不存储到A来上，都在内存中搞定，那它速度就快啊，很快啊，对比很明显啊，对那内存中，那看你内存多大了，看你的机器配置，那这里面后面我给大家讲什么指标放在have里面，什么指标放在T里面。啊，这是不一样的，比如说你要分析三天啊，或者一周或者一年啊，每个月的数据的时候，这些真正指标肯定是要用还，即使它慢，但是它能跑出真正的结果，如果你用这个pad或者Spark的话，它虽然很快，但是它是经忆内存的，你跑了一天，突然间发现。
05:18
内存OM那结果就没了啊，那这个是很到底的事情啊好。那还有当前比较主流的格。啊不主流哈，Flink很主流啊，第三代啊大数据分析引擎啊，那这一块呢，后面咱们班肯定是有项目，有项目要基于link技术项目，那现在呢，发现无论是深圳这个市场，还是这个北京这个市场啊，都有这个逐渐的趋势在加这个弗Li，弗Li克在实施这一块做的真的是啊，非常非常棒啊，它底层这个框架做的。非常棒，对，呃，昨天晚上啊，我和这个啊，主任老师啊，张晨老师，还有吴晨老师啊，我们一起讨论这个国家评价都非常非常高啊，你那主任老师是中科院的硕士老师是清华的硕士，张晨老师是人大的硕士，我是最拙的，但是我是这个思是吧，啊然后这这些呃，去讨论这个技术框架引擎啊，说这个Spark都是那个是当前比较巅峰的巅峰之啊啊未来几年肯定都是绝对的主流的。
06:28
在大数据当中能撑个三年，那已经是很牛逼的框架了啊，你像最开始出的时候够火呀啊，现在逐渐的走向没落了。行，那还有呢，像这个数据查询这一块啊，数据查询及时查询啊，快速分析，那就有的录一啊和K啊K那这个呢，我主要在这项目当中用到这两个框架，那这里面像这个pre和它俩是同类型同级别的框架。
07:00
啊，到时候给大家对比，那这个德鲁伊呢，和这个麒麟呢，呃，德鲁伊在处理实时的及时查询，为你这个麒麟强一些。啊，那麒麟呢，是梳理这种呃，一级串啊，它是比较快的，其实这这种仪它也是一级串。啊，也是一级串，他只不过进了一些，我就一级串一些，进了一些，就一级一些啊，但是呢，他这个那个准确度啊不高啊，它会有一定的这个偏差的对。行，那这一块儿呢，就是这个技术选型这块儿，那稍微回顾一下，在数据采集通道这一块儿，你可以建议老板啊，采用我们卡看负责采集日志，那s support呢，负责导入my circleql的数据存储这一块，MYSQL和EDS，那HTS负责存储所有的数据，买三个负责存存储分析完最终的指标啊，用来可视化，那数据计算这一块，我们这里面主要给大家讲的是have和T啊，T啊日后呢，我们再讲，讲完18个之后给大家啊再说一下怎么靠在这个项目里面哈。
08:08
那数据查询这一块啊，教大家用的就是ma和德一啊，德一那在C1里面，你可以加上这个，你什么七零啊。行，那这就是技术选型啊，技术选型这一块技术就要跟老板提供两套方案啊，这套方案一套呢，是我们非常非常熟悉的，以往经以往的项目当中用过的，那那一张呢，是不熟悉的，那不熟悉的时候。如果老板真的就想要这些，那你就要时间就OK了啊。行，这是技术选型。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据项目之电商数仓

（5/142）

9分33秒

01_尚硅谷_数仓项目介绍

400

3分18秒

02_尚硅谷_数仓采集_用户行为采集课程介绍

360

15分26秒

03_尚硅谷_数仓采集_数仓的概念

340

4分16秒

04_尚硅谷_数仓采集_项目需求

390

8分42秒

05_尚硅谷_数仓采集_项目技术选型

410

12分33秒

06_尚硅谷_数仓采集_系统数据流程设计

380

4分49秒

07_尚硅谷_数仓采集_框架版本选型

360

5分28秒

08_尚硅谷_数仓采集_框架版本具体型号

390

9分7秒

09_尚硅谷_数仓采集_服务器选型

340

21分24秒

100_尚硅谷_业务数仓_DWS层之用户行为宽表

450

10分21秒

101_尚硅谷_业务数仓_需求九：GMV成交总额

490

10分17秒

102_尚硅谷_业务数仓_需求十：ADS层之新增用户占日活跃用户比率

390

12分58秒

103_尚硅谷_业务数仓_需求十一：ADS层之用户行为漏斗分析

410

22分50秒

104_尚硅谷_业务数仓_用户购买商品明细表（宽表）

420

14分14秒

105_尚硅谷_业务数仓_需求十二：ADS层品牌复购率

330

27分9秒

106_尚硅谷_业务数仓_需求十三：求每个等级的用户对应的复购率前十的商品排行(学生分享)

420

26分37秒

107_尚硅谷_业务数仓_数据可视化

380

14分47秒

108_尚硅谷_业务数仓_Azkaban安装

380

16分23秒

109_尚硅谷_业务数仓_GMV指标获取的全调度流程

360

6分34秒

10_尚硅谷_数仓采集_集群资源规划设计

370

13分5秒

110_尚硅谷_业务数仓_拉链表理论

380

29分13秒

111_尚硅谷_业务数仓_拉链表制作

330

24分37秒

112_尚硅谷_业务数仓_业务数仓项目总结

330

1分24秒

113_尚硅谷_业务数仓_即席数仓课程介绍

370

10分20秒

114_尚硅谷_即席数仓_Presto简介

370

22分13秒

115_尚硅谷_即席数仓_Presto安装及使用

350

5分51秒

116_尚硅谷_即席数仓_Presto优化

330

7分40秒

117_尚硅谷_即席数仓_Druid概念、特点、场景

370

6分51秒

118_尚硅谷_即席数仓_Druid对比其他框架

290

11分24秒

119_尚硅谷_即席数仓_Druid框架原理

370

12分41秒

11_尚硅谷_数仓采集_测试集群服务器规划

440

5分5秒

120_尚硅谷_即席数仓_Druid数据结构

390

14分50秒

121_尚硅谷_即席数仓_Druid安装

280

18分53秒

122_尚硅谷_面试题_总体架构

360

41分22秒

123_尚硅谷_面试题_技术框架

350

22分0秒

124_尚硅谷_面试题_用户行为、业务数据、即席查询

340

36分54秒

125_尚硅谷_面试题_开发经验

380

3分28秒

126_尚硅谷_CDH数仓_课程介绍

390

4分7秒

127_尚硅谷_CDH数仓_CM简介及架构

330

20分4秒

128_尚硅谷_CDH数仓_CM安装环境准备

380

30分4秒

129_尚硅谷_CDH数仓_CM、Hadoop、Zookeeper安装

290

13分18秒

12_尚硅谷_数仓采集_埋点数据基本格式

430

6分17秒

130_尚硅谷_CDH数仓_采集Flume的安装

330

7分48秒

131_尚硅谷_CDH数仓_Kafka安装

400

3分53秒

132_尚硅谷_CDH数仓_测试Flume和Kafka安装

300

3分25秒

133_尚硅谷_CDH数仓_消费Flume配置完成

380

9分49秒

134_尚硅谷_CDH数仓_Hive、Oozie、Hue安装

390

3分29秒

135_尚硅谷_CDH数仓_用户行为数仓ODS层导数据

360

9分22秒

136_尚硅谷_CDH数仓_用户行为数仓完结

380

3分8秒

137_尚硅谷_CDH数仓_业务数据生成

430

15分37秒

138_尚硅谷_CDH数仓_业务数仓完结

400

6分34秒

139_尚硅谷_CDH数仓_Oozie执行前准备

340

7分15秒

13_尚硅谷_数仓采集_事件日志数据（上）

350

10分23秒

140_尚硅谷_CDH数仓_Oozie任务编写及运行

270

5分24秒

141_尚硅谷_CDH数仓_即席查询数仓搭建Impala

350

5分58秒

142_尚硅谷_CDH数仓_Spark安装及总结

430

13分26秒

14_尚硅谷_数仓采集_事件日志数据（下）

350

28分13秒

15_尚硅谷_数仓采集_日志生成代码编写

370

7分5秒

16_尚硅谷_数仓采集_Logback日志打印控制

400

11分17秒

17_尚硅谷_数仓采集_服务器准备

360

23分41秒

18_尚硅谷_数仓采集_Hadoop安装

340

2分53秒

19_尚硅谷_数仓采集_项目经验之HDFS多目录配置

350

5分19秒

20_尚硅谷_数仓采集_项目经验之支持LZO压缩配置

370

9分38秒

21_尚硅谷_数仓采集_项目经验之基准测试

380

8分3秒

22_尚硅谷_数仓采集_项目经验之HDFS参数调优

400

6分19秒

23_尚硅谷_数仓采集_Zookeeper安装

430

9分14秒

24_尚硅谷_数仓采集_项目经验之ZK集群启动停止脚本

380

6分33秒

25_尚硅谷_数仓采集_生成测试日志

260

2分2秒

26_尚硅谷_数仓采集_集群日志生成启动脚本

310

6分39秒

27_尚硅谷_数仓采集_集群时间同步修改脚本

350

2分7秒

28_尚硅谷_数仓采集_集群所有进程查看脚本

340

16分15秒

29_尚硅谷_数仓采集_每日回顾

360

7分5秒

30_尚硅谷_数仓采集_日志采集Flume安装

340

9分19秒

31_尚硅谷_数仓采集_Flume组件及配置

380

11分24秒

32_尚硅谷_数仓采集_日志采集Flume配置分析

400

26分57秒

33_尚硅谷_数仓采集_ETL拦截器

380

11分15秒

34_尚硅谷_数仓采集_分类型拦截器

400

16分15秒

35_尚硅谷_数仓采集_日志采集Flume启动停止脚本

280

7分4秒

36_尚硅谷_数仓采集_Kafka集群安装

410

12分6秒

37_尚硅谷_数仓采集_Kafka集群启动停止脚本

310

9分22秒

38_尚硅谷_数仓采集_Kafka Manager安装及脚本

360

11分29秒

39_尚硅谷_数仓采集_项目经验之Kafka压力测试

330

4分1秒

40_尚硅谷_数仓采集_项目经验之Kafka机器数量计算

420

23分59秒

41_尚硅谷_数仓采集_消费Kafka数据Flume

330

2分38秒

42_尚硅谷_数仓采集_项目经验之Flume内存优化

400

7分9秒

43_尚硅谷_数仓采集_项目经验之Flume组件

400

19分28秒

44_尚硅谷_数仓采集_采集通道启动停止脚本

350

3分2秒

45_尚硅谷_数仓采集_调试经验

390

35分45秒

46_尚硅谷_数仓采集_面试题（Linux、Shell、Hadoop）

410

22分44秒

47_尚硅谷_数仓采集_面试题（Flume、Kafka）

360

38分31秒

48_尚硅谷_用户行为数仓_每日回顾

370

3分50秒

49_尚硅谷_用户行为数仓_用户行为数仓课程介绍

330

8分24秒

50_尚硅谷_用户行为数仓_为什么要分层

390

9分12秒

51_尚硅谷_用户行为数仓_数仓分层

300

2分26秒

52_尚硅谷_用户行为数仓_数据集市与数据仓库概念

320

1分11秒

53_尚硅谷_用户行为数仓_数仓命名规范

300

15分44秒

54_尚硅谷_用户行为数仓_Hive&MySQL安装

390

17分44秒

55_尚硅谷_用户行为数仓_Hive运行引擎Tez

410

3分7秒

56_尚硅谷_用户行为数仓_项目经验之元数据备份

360

100

18分25秒

57_尚硅谷_用户行为数仓_ODS层启动日志和事件日志表创建

370

101

14分0秒

58_尚硅谷_用户行为数仓_ODS层加载数据脚本

400

102

29分44秒

59_尚硅谷_用户行为数仓_DWD层启动日志建表及导入数据

420

103

7分38秒

60_ 尚硅谷_用户行为数仓_DWD层启动表加载数据脚本

380

104

10分18秒

61_尚硅谷_用户行为数仓_DWD层事件基础明细表创建

350

105

22分2秒

62_尚硅谷_用户行为数仓_自定义UDF函数（解析公共字段）

430

106

34分5秒

63_尚硅谷_用户行为数仓_自定义UDTF函数（解析事件日志基础明细表）

360

107

6分57秒

64_尚硅谷_用户行为数仓_DWD层数据解析脚本

330

108

21分21秒

65_尚硅谷_用户行为数仓_DWD层事件表加载数据脚本

340

109

10分42秒

66_尚硅谷_用户行为数仓_今日回顾

330

110

13分49秒

67_尚硅谷_用户行为数仓_业务术语

390

111

14分54秒

68_尚硅谷_用户行为数仓_日期的系统函数

360

112

12分58秒

69_尚硅谷_用户行为数仓_每日活跃设备明细

380

113

12分6秒

70_尚硅谷_用户行为数仓_每周活跃设备明细

510

114

6分43秒

71_尚硅谷_用户行为数仓_每月活跃设备明细

290

115

3分50秒

72_尚硅谷_用户行为数仓_DWS层加载数据脚本

330

116

18分8秒

73_尚硅谷_用户行为数仓_需求一：ADS层日活、周活、月活用户数

290

117

9分24秒

74_尚硅谷_用户行为数仓_每日新增设备明细表

350

118

3分34秒

75_尚硅谷_用户行为数仓_需求二：ADS层每日新增设备表

400

119

11分0秒

76_尚硅谷_用户行为数仓_用户留存分析

350

120

12分44秒

77_尚硅谷_用户行为数仓_1、2、3、n日留存用户明细

360

121

12分41秒

78_尚硅谷_用户行为数仓_需求三：ADS层留存用户和留存比率

360

122

22分3秒

79_尚硅谷_用户行为数仓_新数据准备

370

123

12分34秒

80_尚硅谷_用户行为数仓_需求四：沉默用户

380

124

18分43秒

81_尚硅谷_用户行为数仓_需求五：本周回流用户数

410

125

6分13秒

82_尚硅谷_用户行为数仓_需求六：流失用户

320

126

9分0秒

83_尚硅谷_用户行为数仓_需求七：最近连续3周活跃用户数

390

127

19分59秒

84_尚硅谷_用户行为数仓_需求八：最近七天内连续三天活跃用户数

380

128

13分41秒

85_尚硅谷_用户行为数仓_用户行为数仓业务总结

440

129

12分47秒

86_尚硅谷_用户行为数仓_Hive企业面试题总结

370

130

6分35秒

87_尚硅谷_业务数仓_业务数仓课程介绍

340

131

16分53秒

88_尚硅谷_业务数仓_电商业务与数据结构简介

320

132

6分27秒

89_尚硅谷_业务数仓_表的分类

380

133

8分25秒

90_尚硅谷_业务数仓_同步策略

350

134

14分15秒

91_尚硅谷_业务数仓_范式理论

320

135

7分23秒

92_尚硅谷_业务数仓_雪花模型、星型模型和星座模型

350

136

3分11秒

93_尚硅谷_业务数仓_配置Hadoop支持Snappy压缩

320

137

11分19秒

94_尚硅谷_业务数仓_业务数据生成

330

138

7分14秒

95_尚硅谷_业务数仓_Sqoop安装及参数

380

139

14分25秒

96_尚硅谷_业务数仓_Sqoop导入数据

360

140

7分51秒

97_尚硅谷_业务数仓_ODS层建表及数据导入

260

141

12分59秒

98_尚硅谷_业务数仓_DWD层建表及导入数据

350

142

8分37秒

99_尚硅谷_业务数仓_需求讲解

370

05_尚硅谷_数仓采集_项目技术选型

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐