首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Hadoop之HDFS基本概念

1. 概念

HDFS,它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。

HDFS 的设计适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应用。

2.组成

(1) HDFS 集群包括,NameNode 和 DataNode 以及 Secondary Namenode。

(2) NameNode 负责管理整个文件系统的元数据,以及每一个路径(文件)所对应的数据块信息。

(3) DataNode 负责管理用户的文件数据块,每一个数据块都可以在多个 DataNode 上存储多个副本。

(4) Secondary NameNode 用来监控 HDFS 状态的辅助后台程序,每隔一段时间获取 HDFS 元数据的快照。

3.文件块大小

HDFS 中的文件在物理上是分块存储 (block),块的大小可以通过配置参数 (dfs.blocksize) 来规定,默认大小在 hadoop2.x 版本中是 128M,老版本中是 64M。

HDFS 的块比磁盘的块大,其目的是为了最小化寻址开销。如果块设置得足够大,从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。因而,传输一个由多个块组成的文件的时间取决于磁盘传输速率。

如果寻址时间约为 10ms,而传输速率为 100MB/s,为了使寻址时间仅占传输时间的 1%,我们要将块大小设置约为 100MB。默认的块大小实际为 64MB,但是很多情况下 HDFS 使用 128MB 的块设置。

块的大小:10ms*100*100M/s = 100M

本文是在本人在学习 Hadoop 时的总结归纳和笔记,如果觉得对你有帮助,不要忘了点赞,评论,转发哟!!!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190106G101EW00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券