大数据(big data),指的是在一定时间范围内不能以常规软件工具处理(存储和计算)的大而复杂的数据集。说白了大数据就是使用单台计算机没法在规定时间内处理完,或者压根就没法处理的数据集。
大量 (Volume)高速 (Velocity)多样化 (Variety)Hadoop 是用于处理大数据的工具之一。Hadoop 和其他软件产品通过特定的专有算法和方法来解释或解析大数据搜索的结果。
在大数据处理上,Hadoop并非是唯一的分布式处理架构,但是对于大部分的企业来说,基于Hadoop已经能够满足绝大部分的数据需求,因此才会成为现在的主流选择。
更多关于大数据 Hadoop 系列的学习文章,请参阅:进击大数据,本系列持续更新中。
Hadoop 是 Apache软件基金会下一个开源分布式计算平台,以 HDFS(Hadoop Distributed File System)、MapReduce(Hadoop2.0加入了YARN,Yarn是资源调度框架,能够细粒度的管理和调度任务,还能够支持其他的计算框架,比如spark)为核心的 Hadoop 为用户提供了系统底层细节透明的分布式基础架构。hdfs的高容错性、高伸缩性、高效性等优点让用户可以将Hadoop部署在低廉的硬件上,形成分布式系统。
是一个由 Apache 基金会所开发的分布式系统基础架构,主要解决海量数据的储存和海量数据的分析计算问题。广义上说,Hadoop 是一个更广泛的概念,Hadoop 生态圈。
Apache版本最原始(最基础)的版本,对于入门学习最好。

有效的集成了整个HADOOP生态系统的全部组件,并深度优化,重新编译为一个完整的更高性能的大数据通用计算平台,实现了各部件的有机协调。因此DKH相比开源的大数据平台,在计算性能上有了高达5倍(最大)的性能提升。DKhadoop将复杂的大数据集群配置简化至三种节点(主节点、管理节点、计算节点),极大的简化了集群的管理运维,增强了集群的高可用性、高可维护性、高稳定性。

CDH是Cloudera的hadoop发行版,完全开源,比Apache hadoop在兼容性,安全性,稳定性上有增强。

Hortonworks 的主打产品是Hortonworks Data Platform (HDP),也同样是100%开源的产品,其版本特点:HDP包括稳定版本的Apache Hadoop的所有关键组件;安装方便,HDP包括一个现代化的,直观的用户界面的安装和配置工具。

华为FusionInsight大数据平台是集Hadoop生态发行版、大规模并行处理数据库、大数据云服务于一体的融合数据处理与服务平台,拥有端到端全生命周期的解决方案能力。除了提供包括批处理、内存计算、流计算和MPPDB在内的全方位数据处理能力外,还提供数据分析挖掘平台、数据服务平台,帮助用户实现从数据到知识,从知识到智慧的转换,进而帮助用户从海量数据中挖掘数据价值。

更多关于大数据 Hadoop系列的学习文章,请参阅:进击大数据,本系列持续更新中。




最近距离计算:在HDFS写数据的过程中,NameNode会选择距离待上传数据最近距离的DataNode接受数据;节点距离(两个节点到达最近的共同祖先的距离总和)



更多关于大数据 Hadoop系列的学习文章,请参阅:进击大数据,本系列持续更新中。

一个完整的 MapReduce 程序在分布式运行时有三类实例进程:
定义
数据块和与数据切片
切片机制
定义:Map 方法之后,Reduce 方法之前的数据处理过程称之为 Shuffle (打乱顺序,洗牌)

分区排序:按照字典顺序对 Key 的索引使用快速排序


定义
Yarn 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序



Hadoop 作业调度器主要有三种:FIFO、容量、公平调度器。Hadoop 3.1.3 默认的资源调度器是容量调度器
FIFO调度器
容量调度器
公平调度器
Spark是加州大学伯克利分校AMP实验室(Algorithms, Machines, and People Lab)开发的通用内存并行计算框架,借鉴了MapReduce之上发展而来的,继承了其分布式并行计算的优点并改进了MapReduce明显的缺陷。使用场景如下:
Storm用于“连续计算”,对数据流做连续查询,在计算时就将结果以流的形式输出给用户。如今已被Flink替代。
Apache Flink是一个面向数据流处理和批量数据处理的可分布式的开源计算框架,它基于同一个Flink流式执行模型(streaming execution model),能够支持流处理和批处理两种应用类型。由于流处理和批处理所提供的SLA(服务等级协议)是完全不相同, 流处理一般需要支持低延迟、Exactly-once保证,而批处理需要支持高吞吐、高效处理,所以在实现的时候通常是分别给出两套实现方法,或者通过一个独立的开源框架来实现其中每一种处理方案。
一个可用的、可靠的、分布式的海量日志采集、聚合和传输系统。
是为提供简单的数据操作而设计的分布式数据仓库,它提供了简单的类似SQL语法的HiveQL语言进行数据查询。



Hive 通过给用户提供的一系列交互接口,接收到用户的指令(SQL),使用自己的 Driver,结合元数据(MetaStore),将这些指令翻译成 MapReduce,提交到 Hadoop 中执行,最后,将执行返回的结果输出到用户交互接口。
分布式协调系统,Google Chubby的Java开源实现,是高可用的和可靠的分布式协同(coordination)系统,提供分布式锁之类的基本服务,用于构建分布式应用。
基于Hadoop的分布式数据库,Google BigTable的开源实现 是一个有序、稀疏、多维度的映射表,有良好的伸缩性和高可用性,用来将数据存储到各个计算节点上。
逻辑上,HBase 的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。但从底层物理存储结构(K-V)来看,HBase 更像是一个 multi-dimensional-map(多维 map)。



Zookeeper的作用:HBase 通过 Zookeeper 来做 master 的高可用、RegionServer 的监控、元数据的入口以及集群配置的维护等工作。


基于Hadoop的数据仓库,支持标准的SQL语法进行数据查询。
大数据流处理系统,建立于Hadoop之上为并行计算环境提供了一套数据工作流语言和执行框架。
基于HadoopMapReduce的大规模数据挖掘与机器学习算法库。
MapReduce工作流管理系统。
数据转移系统,是一个用来将Hadoop和关系型数据库中的数据相互转 移的工具,可以将一个关系型数据库中的数据导入Hadoop的HDFS中,也可以将HDFS 的数据导入关系型数据库中。
Facebook开源的日志收集聚合框架系统。
这里只是列举了一部分Hadoop生态里的组件,稍微介绍了一下。更多关于大数据 Hadoop系列的学习文章,请参阅:进击大数据,本系列持续更新中。
参考来源如下:https://blog.csdn.net/weixin_43842853/article/ details/124316032 https://blog.csdn.net/weixin_43842853/article/ details/123007306 https://cnblogs.com/liugp/p/16100092.html