首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >大数据:Hadoop平台概述

大数据:Hadoop平台概述

原创
作者头像
谢苏
发布2025-08-11 09:02:30
发布2025-08-11 09:02:30
1840
举报

1.Hadoop简介

Hadoop是由Apache基金会所开发的分布式计算平台,它可以在计算机集群中对大型数据集进行分布式处理。Hadoop旨在从单个服务器扩展到数千台机器,每天机器都提供本地计算和存储。Hadoop在应用层面设计了检测和处理计算机故障的机制,其本身不依靠硬件来提供高可用性。Hadoop是基于Java语言开发的,它可以较好地运行在Linux平台上。Hadoop由Doug Cutting(Hadoop之父)提出,它的原型和灵感来自于Google的MapReduce和GFS,它是开源的分布式系统。

2006年,随着Doug Cutting加入雅虎,Hadoop项目从Nutch(一个开源的网络搜索引擎)项目中独立出来。2008年。Hadoop成为Apache基金会扶持的顶级项目。随后,Hadoop经过多年积累,融入了R语言,Hive,Pig,ZooKeeper,HBase,Impala,Sqoop等一系列组件,逐渐发展成了一个成熟的主流商业应用,得到了广泛的应用。

2.Hadoop的特性

Hadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力。它具有以下几个特性。

高可靠性:Hadoop采取分布式文件系统对数据做冗余处存储,它的部分副本失效不会影响数据的可用性。

高扩展性:Hadoop可以轻易地将集群扩展到数千节点的规模。

高效性:Hadoop采取分布式计算框架,可以将计算任务分配到集群多个节点中,实现数据的高效处理。

低成本:Hadoop可以部署在通用的X86服务器上,不需要采购昂贵的硬件设备。Hadoop属于开源项目,软件成本也大大降低。

3.Hadoop应用现状

Hadoop凭借其优异的性能,在大数据企业中获得了广泛的应用。在国外,Yahoo,Facebook,IBM,eBay等大企业都使用Hadoop进行海量数据的存储和处理。国内许多互联网公司及大数据企业也使用Hadoop大数据平台。

百度作为全球最大的中文搜索引擎公司,其需要存储和处理的数据量及其庞大。百度在2006年就开始关注Hadoop并尝试投入使用,目前已建立多个Hadoop集群。百度利用Hadoop集群构建了数据挖掘与日志分析平台,数据库系统,推荐引擎系统,用户行为系统,来支撑公司的数据团队,搜索团队,社区产品对团队,广告团队开展或优化其业务。

腾讯也是国内使用Hadoop最早的公司之一。腾讯利用Hadoop构建了数据仓库系统TDW并开发了自己的TDW-IDE基础开发环境。腾讯的TDW目前已成为腾讯最大的离线数据处理平台,其服务范围覆盖了腾讯的绝大部分业务产品,如QQ聊天工具,腾讯微博,财付通等。

华为公司不仅是Happo的使用者,同时它也是为Hadoop社区做出杰出贡献的公司之一。华为对Hadoop的高可用方案,以及HBase(分布式数据库)领域有深入研究。华为目前已经推出了基于Hadoop的大数据解决方案FusionInsight HD,FusionInsight HD具备很多企业级增强功能。

4.Hadoop版本及相关平台

ApacheHadoop版本目前共有三台,它们分别是Hadoop1.0,Hadoop2.0及Hadoop3.0。Hadoop1.0对应的版本为0.20.x,1.x,0.21.x,0.22.x,主要组件为分布式文件系统(HDFS)及离线计算框架(MapReduce)。Hadoop2.0对应的版本是0.23.x和2.x。Hadoop2.0主要新增了YARN和HDFS Federation,实现了对多种计算框架的支持和HDFS主节点的横向扩展。Hadoop3.0增强了YARN和HDFS的高可用性,它实现了对云计算平台的支持。但是它目前还未推出可用于生产环境的稳定产品。

除了开源的Apache Hadoop之外,市面上也存在不少由商业公司推出的Hadoop发行版。Cloudera公司于2009年发布第一个Hadoop商业化版本。如今,Cloudera和2011年从Yahoo剥离的Hortonworks以及MapR在Hadoop领域中形成三足鼎力之势。Hortonworks选择与红帽,微软等公司联手,希望借助开源社区和合作伙伴的力量壮大自己;Cloudera则与英特尔合作,瞄准高利润的大订单;Map与Dell达成战略合作伙伴,致力于开发下一代性能强大的Hadoop。同时,Zettaset,HStreaming,Hadapt等与Hadoop相关的新公司也推出了大数据的服务,华为更是开发了Hadoop的企业产品FusionInsight HD,为市场带来最新技术。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档