1、典型大数据批处理系统架构是什么样的?
通过数据采集工具,我们将数据库或日志的一些数据导到大数据平台上,比如说HDFS,这样的数据在数据库系统中,然后,在这个集群环境下,我们需要一些离线的查询处理的引擎,MapReduce,Spark,需要一些资源调度工具,Resoure manager,node manger,在这样的集群环境下做大规模分析处理,通常消耗时间比较长。
2、什么是YARN?
Apache Hadoop YARN(Yetanother resource negotiator,另一种资源协调者),是一种新的Hadoop资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群再利用率、资源统一管理和数据共享方面带来了巨大的好处。
YARN的基本思想是将JobTracker的两个主要功能(资源管理和作业调度/监控)分离。
参考资料:
MOOC中国人民大学《数据库系统概论(新技术篇)》
第14讲流数据分析与处理/流数据分析与处理陈跃国
百度百科YARN词条
领取专属 10元无门槛券
私享最新 技术干货