大数据体系架构中的组件非常多,每个组件又属于不同的生态圈系统。从最早的Hadoop生态圈体系开始,逐步有了Spark生态圈体系和Flink生态圈体系。因此在学习大数据之前有必要了解一下每一个生态圈体系中具体包含哪些组件,以及它们的作用又是什么。
视频讲解如下:
在大数据体系中使用了分布式存储的方式解决了海量数据的存储问题。它分为离线数据存储和实时数据存储。
大数据离线数据存储组件主要包括:HDFS、HBase和Hive。这三个组件都属于Hadoop生态圈体系。下面分别进行介绍。
提示:Hive的执行引擎也可以是Spark,即:Hive on Spark。
大数据实时数据存储组件主要使用消息系统Kafka。
大数据生态圈提供了各种计算引擎。通过使用这些计算引擎来执行批处理的离线计算和流处理的实时计算;同时也提供了各种数据分析引擎,用于支持SQL语句
大数据批处理的离线计算组件主要包括:MapReduce、Spark Core和Flink DataSet。下面分别进行介绍。
大数据流处理的实时计算组件主要包括:Spark Streaming和Flink DataStream。下面分别进行介绍。
为了支持使用SQL处理大数据便有了各种大数据分析引擎,主要包括:Hive、Spark SQL、Flink SQL等下面分别进行介绍。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。