温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
本节课我们来讨论一下大数据计算引擎18g生态圈的组件。首先了解一下什么是18g 18g是据内存的大数据计算引擎,通过使用18g既可以处理离线数据,也可以处理实时的流失数据。需要注意的问题是,18g中并不存在真正的实时计算,所有18计算都是P处理的底线计算。在具体介绍18g生态圈中组件之前,先了解一下18g运行的平台层。平台层讨论呢式可以把10SPA克部署成哪些模式。18g支持三种不同的部署模式,第一种是local模式,它是指可以在IDE的开发环境中直接运行sparkrk应用程序,因此这种模式多用于开发和测试环境中。第二种是C特的集群模式,它具体分为两种不同的集群,是单的alone的独立运行模式和亚M运行模式。在S单的alone模式下。斯巴克集群不需要依赖其他组件,斯巴克可以独立运行任务和管理集群的资源。在亚模式下,斯巴克需要依赖亚M来管理资源和调度任务。亚姆斯哈多嗯,2.0版本home提供的一个资源和任务调度的平台。第三种式云原生模式,在该模式下,K88G运行部署在docker和Co ne, 也就是K8S的容器中,有的平台层的支持就可以部署18g。在18g生态圈中,最核心的是底层的执行引擎18个。Com, 注意,18个。Com是一个离线计算执行引擎,在18g中的所有计算都是18RK com的离线计算。有了底层的执行引擎的支持,18g并提供了数据分析引擎10SPARK c com因为支持使用CQL语境处理数据,同时呢还提供流由处理引擎10GDREAMING因为处理流速数据。
01:59
那你知道为什么18个dream命只能够叫做流出理引擎,而不能够叫做实时出理引擎吗?欢迎评论区来讨论18个。COM10SPARK c com和10SPARK dreaming都是属于大数据的计算引擎,下面重点讨论一下每一个部分的访问接。COM10SPARK code的访问接com是18个contest 10个C口的访问接口是c com cont 18个dreaming的访问接口是是stream contest是为了统一各个模块的访问接口,从10SPA克2.0开,Ion提供了一个统一的访问接口,叫做10SPA克session。了解到了各个模的访问接口,后面再来讨论一下它们各自的数据模型。18g的数据模型是RDD,它叫做弹性分布式数据集,它有分区组成,每个分区被不同的10SPA口重接点所处理,从而支持分布式计算。18个C口数据模型是data塔frame可以把它理解成是一张表。
03:00
斯巴克stream的注意模型是Dis stream, 它代表以上零注意。Data frame和Dis stream最终的表现形式都是一个RDT 10巴克生态圈除了提供各种计算引擎,还支持机学习和图计算,但这两个模块严格上并不属于大数据。现在你已经知道18g生态圈中的组建了,那你知道如何部署18g集群吗?欢迎评论区有言讨论好了,记得点加号关注赵玉强老师。
我来说两句