Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Hadoop 概述

Hadoop 概述

作者头像
兮动人
发布于 2021-06-11 11:08:02
发布于 2021-06-11 11:08:02
5770
举报
文章被收录于专栏:兮动人的博客兮动人的博客

1. Hadoop 介绍、发展简史

文章目录

1.1 狭义上Hadoop指的是Apache的一款开源软件。

  • 用java语言实现开源软件框架
  • 允许使用简单的编程模型跨计算机集群对大型数据集进行分布式处理

2.1 Hadoop核心组件

  • Hadoop HDFS(分布式文件存储系统)︰解决海量数据存储
  • Hadoop YARN(集群资源管理和任务调度框架)︰解决资源任务调度
  • Hadoop MapReduce (分布式计算框架)︰解决海量数据计算

3.1 官网:https://hadoop.apache.org/

4.1 广义上Hadoop指的是围绕Hadoop打造的大数据生态圈。

5.1 Hadoop发展简史

  • Hadoop之父:Doug Cutting
  • Hadoop起源于Apache Lucene子项目:Nutch Nutch的设计目标是构建一个大型的全网搜索引擎。遇到瓶颈∶如何解决数十亿网页的存储和索引问题
  • Google三篇论文
  1. 《The Google file system》︰谷歌分布式文件系统GFS
  2. 《MapReduce:Simplified Data Processing on Large Clusters》︰谷歌分布式计算框架
  3. MapReduce《Bigtable: A Distributed Storage System for Structured Data》︰谷歌结构化数据存储系统

6.1 总结

  • 狭义上Hadoop指软件广义上Hadoop指生态圈
  • Hadoop之父Doug cutting
  • Hadoop起源于Nutch项目
  • 受Google 3篇论文启发
  • 2008年开源给Apache软件基金会

2. Hadoop 特性优点、国内外应用

2.1 Hadoop 特性优点

2.1 Hadoop 国外应用

2.2 Hadoop 国内应用

2.3 总结

  • Hadoop成功的魅力——通用性 精准区分做什么和怎么做 做什么属于业务问题怎么做属于技术问题。 用户负责业务Hadoop负责技术
  • Hadoop成功的魅力——简单

3. Hadoop 发行版本、架构变迁

3.1 Hadoop 发行版本

3.2 Hadoop 发行版本

  • Apache开源社区版本:http://hadoop.apache.org/
  • 商业发行版本 Cloudera : https://www.cloudera.com/products/open-source/apache-hadoop.html Hortonworks : https://www.cloudera.com/products/hdp.html
  • 目前最新版本是 :3.2.2

4. Hadoop 架构变迁(1.0-2.0变迁)

  1. Hadoop 1.0 HDFS(分布式文件存储) MapReduce(资源管理和分布式数据处理)
  1. Hadoop 2.0 HDFS(分布式文件存储) MapReduce(分布式数据处理) YARN(集群资源管理、任务调度)

5. Hadoop 架构变迁(3.0新版本)

  • Hadoop 3.0架构组件和Hadoop 2.0类似,3.0着重于性能优化。
  • 通用 精简内核、类路径隔离、shell脚本重构
  • Hadoop HDFS EC纠删码、多NameNode支持
  • Hadoop MapReduce 任务本地化优化、内存参数自动推断
  • Hadoop YARN Timeline Service V2、队列配置
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021/03/30 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Hadoop 概述
1)Hadoop创始人Doug Cutting,为 了实 现与Google类似的全文搜索功能,他在Lucene框架基础上进行优化升级,查询引擎和索引引擎。
丘山水工
2025/01/29
1300
Hadoop 概述
大数据_Hadoop初体验
root@node1 server$ scp -r /export/server/hadoop root@node2:$PWD
Pandolar
2022/01/04
1.1K0
大数据_Hadoop初体验
hadoop生态圈相关技术_hadoop的生态
  最早Doug Cutting(后面被称为hadoop之父)领导创立了Apache的项目Lucene,然后Lucene又衍生出子项目Nutch,Nutch又衍生了子项目Hadoop。Lucene是一个功能全面的文本搜索和查询库,Nutch目标就是要试图以Lucene为核心建立一个完整的搜索引擎,并且能达到提到Google商业搜索引擎的目标。网络搜索引擎和基本文档搜索区别就在规模上,Lucene目标是索引数百万文档,而Nutch应该能处理数十亿的网页。因此Nutch就面临了一个极大的挑战,即在Nutch中建立一个层,来负责分布式处理、冗余、故障恢复及负载均衡等等一系列问题。
全栈程序员站长
2022/11/17
8740
hadoop生态圈相关技术_hadoop的生态
大数据随记 —— Hadoop 概述
Hadoop 是 Apache 基金会所开发的分布式系统基础架构,可以让用户在不了解分布式底层细节的情况下,开发分布式程序。
繁依Fanyi
2023/05/07
2600
大数据随记 —— Hadoop 概述
Hadoop体系_集团架构
自从大数据的概念被提出后,出现了很多相关技术,其中对大数据发展最有影响力的就是开源分布式计算平台Hadoop,它就像软件发展史上的Window、Linux、Java一样,它的出现给接下来的大数据技术发展带来了巨大的影响。很多知名公司都加入Hadoop相关项目的开发中,如Facebook、Yahoo等,围绕大数据Hadoop技术产生了一系列大数据的相关技术
全栈程序员站长
2022/11/03
1.2K0
Hadoop体系_集团架构
Hadoop生态系统-一般详细
首先我们先了解一下Hadoop的起源。然后介绍一些关于Hadoop生态系统中的具体工具的使用方法。如:HDFS、MapReduce、Yarn、Zookeeper、Hive、HBase、Oozie、Mahout、Pig、Flume、Sqoop。
全栈程序员站长
2022/08/31
1.2K0
Hadoop基础知识总结
Hadoop这个单词本身并没有什么特殊的含义,而只是其作者Doug Cutting孩子的一个棕黄色的大象玩具的名字。
石晓文
2019/06/17
1.6K0
大数据概况及Hadoop生态系统总结
大数据(big data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
全栈程序员站长
2022/08/30
7110
大数据概况及Hadoop生态系统总结
大数据入门(二)-初识Hadoop
将文件切分成指定大小的数据块,并以多副本的存储在多个机器上。数据切分、多副本、容错等操作对用户是透明的。
JavaEdge
2018/06/19
5400
大数据存储技术(1)—— Hadoop简介及安装配置
1、Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 2、主要解决,海量数据的存储和海量数据的分析计算问题。 3、广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。
Francek Chen
2025/01/22
4970
大数据存储技术(1)—— Hadoop简介及安装配置
大数据-Hadoop的使用指南
1.x版本系列:hadoop版本当中的第二代开源版本,主要修复0.x版本的一些bug等
cwl_java
2019/12/25
1.2K0
从Hadoop框架讨论大数据生态
1) Lucene 框架是 Doug Cutting 开创的开源软件,用 Java 书写代码,实现与 Google 类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎。
程序狗
2021/12/21
4780
一文了解大数据生态体系-Hadoop
大数据(big data):指无法在一定时间范围内用常规软件工具进行捕捉、管理 和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程 优化能力的海量、高增长率和多样化的信息资产。
架构狂人
2023/08/16
9830
一文了解大数据生态体系-Hadoop
进击大数据系列(一):Hadoop 基本概念与生态介绍
大数据(big data),指的是在一定时间范围内不能以常规软件工具处理(存储和计算)的大而复杂的数据集。说白了大数据就是使用单台计算机没法在规定时间内处理完,或者压根就没法处理的数据集。
民工哥
2023/08/22
3K0
进击大数据系列(一):Hadoop 基本概念与生态介绍
独家 | 一文读懂Hadoop(一):综述
随着全球经济的不断发展,大数据时代早已悄悄到来,而Hadoop又是大数据环境的基础,想入门大数据行业首先需要了解Hadoop的知识。2017年年初apache发行了Hadoop3.0,也意味着一直有一群人在对Hadoop不断的做优化,不仅如此,各个Hadoop的商业版本也有好多公司正在使用,这也印证了它的商业价值。 读者可以通过阅读“一文读懂Hadoop”系列文章,对Hadoop技术有个全面的了解,它涵盖了Hadoop官网的所有知识点,并且通俗易懂,英文不好的读者完全可以通过阅读此篇文章了解Hado
数据派THU
2018/01/30
2.1K0
独家 | 一文读懂Hadoop(一):综述
Hadoop概述
官方地址:http://hadoop.apache.org/ The Apache Hadoop project develops open-source software for reliable, scalable, distributed computing.(可靠的,可拓展的 分布式系统) 狭义Hadoop:是一个适合大数据分布式存储(HDFS),分布式计算(MapReduce)和资源调度(YARN)的平台。 广义的Hadoop:指的Hadoop的生态系统,Hadoop只是其中最重要的,最基础的一部分。生态圈的中的每个子系统只负责解决某一个特点的问题。
羊羽shine
2019/08/06
4370
Hadoop01【介绍】
官网:http://hadoop.apache.org/ HADOOP是apache旗下的一套开源软件平台,HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理 HADOOP的核心组件有:
用户4919348
2019/04/02
7890
Hadoop01【介绍】
2021年大数据Hadoop(一):​​​​​​​Hadoop介绍
Hadoop是Apache旗下的一个用java语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。
Lansonli
2021/10/11
1.7K0
Hadoop的发家简史
说到大数据技术不得不提起Hadoop,今天加米谷大数据就来简单介绍一下Hadoop的简史。
加米谷大数据
2019/06/05
1.8K0
Hadoop的发家简史
最新版本——Hadoop3.3.6单机版完全部署指南
本文基于最新的 Hadoop 3.3.6 的版本编写,带大家通过单机版充分了解 Apache Hadoop 的使用。本文更强调实践,实践是大数据学习的重要环节,也能在实践中对该技术有更深的理解,所以一些理论知识建议大家多阅读相关的书籍(都在资料包中)。
大数据流动
2023/12/07
1.4K0
最新版本——Hadoop3.3.6单机版完全部署指南
相关推荐
Hadoop 概述
更多 >
LV.4
这个人很懒,什么都没有留下~
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档