云计算分布式框架 Hadoop

107课时
2.2K学过
8分

课程评价 (0)

请对课程作出评价:
0/300

学员评价

暂无精选评价
5分钟

大数据让Hadoop走得更远

随着IT的发展,使得解决大数据问题越来越迫切,许多企业的数据架构师开始走向探索之路。这个迫切的问题是:通常用于分析企业数据的传统数据库和一些商业智能工具在面对海量数据处理时力不从心了,无法胜任大数据的处理任务。

这个挑战的形成源于十年前,当时很少有TB级的企业数据仓库。Forrester分析报告指出,在2009年之前,有三分之二的企业数据仓库(简称EDW)处于1~10 TB的范围。而到2015年,大多数大型组织的EDW会达到100TB以上,电信、金融服务和电子商务领域甚至会出现PB级EDW。

这些大数据存储需要一些“超级规模分析”的新工具和新方法,其中的“超级规模”包含了4个方面:容量从几百TB到PB级,速度达到实时秒级单位,多样性(包括多样结构、无结构或半结构),波动性(包括各种类型的应用程序、新服务、新社交网络等数据源)。

现有BI工具供应商正在增加对Apache Hadoop的支持:如Pentaho,于2010年5月对Hadoop进行支持,随后又增加对EMC Greenplum发行版的支持。Hadoop正在成为主流的另一个迹象是数据集成商的支持。

此外,出现了Hadoop设备,其中包括2011年5月发布的EMC Greenplum HD(一个整合Hadoop MapR、Greenplum数据和标准X86服务器的设备)和Dell/Cloudera Solution(在Dell PowerEdge C2100服务器和PowerConnect交换机上整合Cloudera的Hadoop发行版和Cloudera Enterprise管理工具)。

最后,Hadoop比较适合部署到云环境中,IT团队可以在云技术架构上进行试验。例如,Amazon的 EC2和 S3提供了Amazon Elastic MapReduce的托管服务。Apache Hadoop自身还带有一组专门用于简化EC2部署和运行的工具。