首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Java大数据学习~Hadoop初识一了解其架构

Java大数据学习~Hadoop初识一了解其架构

作者头像
用户2196435
发布于 2018-07-19 06:29:56
发布于 2018-07-19 06:29:56
4190
举报
文章被收录于专栏:LuckQILuckQI

今天趁着端午节的最后一天假期,把想看的视频看了下。也走了一遍Hadoop的安装步骤。总的来说流程也明白了很多。这次文章简单的介绍知识点。具体安装步骤大家可以先看网上的。后面有时间的时候在补一篇。

我们的文章是建立在Hadoop已经安装好的情况下。请大家注意再练习的时候首先把环境安装好。

HDFS 简介

在HDFS的学习中,我们首先应该明白他具体是什么,为什么会有这个系统。优点和缺点是什么。

  • HDFS是什么呢?HDFS即Hadoop分布式文件系统(Hadoop Distributed Filesystem),以流式数据访问模式来存储超大文件,运行于商用硬件集群上,是管理网络中跨多台计算机存储的文件系统
  • HDFS 缺点: 要求低时间延迟的数据访问应用,存储量小的数据文件,多用户写入,任意修改的文件都不适合该方式。

HDFS的 架构

在整个HDFS架构中,也是采用主从结构Master-Slaves 架构.我们的NameNode是主节点,Datanode是数据节点也是我们的Slaves。

  • NameNode 在现在的架构中是有两个节点存活,其中一个节点是备用节点。处于不活跃状态,只有活跃的节点出现问题,才会切换到备用节点上,保证系统的高可用。
  1. 负责客户端的请求响应。
  2. 负责元数据的管理,包含文件的名称,副本系数,Block的存放等。
  3. 用来管理文件系统的命名空间,负责记录文件是如何分割成数据块,以及这些数据块分别被存储到那些数据节点上,它的主要功能是对内存及IO进行集中管理。
  • DataNode : 在我们该架构中属于数据节点,目的存放数据。
  1. 存储用户的文件及对应的数据块Block。
  2. 定期的向NameNode 发送心跳信息。汇报本身及其所有的block信息,和节点的健康状态。
  3. 虽然是主备结构,但是还具有高可用的性质。在安装集群的时候,建议NameNode与DataNode安装在不同的机架上,这样就算其中一台机架挂掉,还能继续的稳定执行。
  4. 副本存放策略:我们在安装HDFS的时候默认副本系数为三,就是一个文件能用有三个存放目录。同样也是建议放置在不同的机架上。

Hadoop shell命令

我们简单的说几个参数命令,很多使用的方式是跟我们的linux命令参数是一样的。

mkdir 命令 创建文件

ls命令查看目录下文件内容 。

put命令参数 上传文件到Hadoop上 hdfs dfs -put 文件 目的目录

get命令参数 从hadoop文件上获取文件下载到本地目录下

还有很多 其他的命令参数 ,包含复制 copy ,rm 删除 ,move移动 等等.。我们在这里就不多说了大家可以自己去学习使用下。

HDFS中的数据块

我们知道在配置Hadoop时,我们程序默认的数据块大小是128M,该数据块究竟意义是什么呢?

  • 首先我们把一个大文件分成很多块,就能充分的利用磁盘IO的性能,不同的块存储在不同的磁盘上。
  • 简化了存储系统的设计,将存储系统控制在块的范围内,简化管理。
  • 提高了数据备份,和高可用性,我们在数据写入或者读取时,如果有的块数据损坏了,我们采用别的块数据继续进行读取。方便我们获得数据。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-06-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 LuckQI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
大数据学习之路05——Hadoop原理与架构解析
Hadoop 是 Apache 开源组织的一个分布式计算开源框架,是一个可以更容易开发和运行处理大规模数据的解决方案,它提供了一套分布式系统基础架构,允许使用简单的编程模型跨大型计算机的大型数据集进行分布式处理。
汪志宾
2019/05/24
8.8K0
大数据学习之路05——Hadoop原理与架构解析
Hadoop大数据实战系列文章之HDFS文件系统
Hadoop 附带了一个名为 HDFS(Hadoop分布式文件系统)的分布式文件系统,专门
IT苦逼一枚
2020/11/09
8320
Hadoop大数据实战系列文章之HDFS文件系统
《hadoop权威指南》笔记二: hdfs读写过程剖析
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。
皮皮熊
2019/09/07
1.4K0
《hadoop权威指南》笔记二: hdfs读写过程剖析
菜鸟的Hadoop快速入门
大数据是一门概念,也是一门技术,是以Hadoop为代表的大数据平台框架上进行各种数据分析的技术。
数澜科技
2019/09/23
5890
菜鸟的Hadoop快速入门
独家 | 一文读懂Hadoop(二)HDFS(上)
随着全球经济的不断发展,大数据时代早已悄悄到来,而Hadoop又是大数据环境的基础,想入门大数据行业首先需要了解Hadoop的知识。2017年年初apache发行了Hadoop3.0,也意味着一直有一群人在对Hadoop不断的做优化,不仅如此,各个Hadoop的商业版本也有好多公司正在使用,这也印证了它的商业价值。 读者可以通过阅读“一文读懂Hadoop”系列文章,对Hadoop技术有个全面的了解,它涵盖了Hadoop官网的所有知识点,并且通俗易懂,英文不好的读者完全可以通过阅读此篇文章了解Hado
数据派THU
2018/01/30
2.4K0
独家 | 一文读懂Hadoop(二)HDFS(上)
大数据知识总结(一):Hadoop之HDFS重点架构原理
分布式系统基础架构,旨在解决海量数据存储和计算分析问题,核心组件:HDFS + MapReduce + Yarn。
Lansonli
2025/05/24
2090
Hadoop机架感知
HDFS作为Hadoop中的一个分布式文件系统,而且是专门为它的 MapReduce设计,所以HDFS除了必须满足自己作为分布式文件系统的高可靠性外,还必须为MapReduce提供高效的读写性能,那么HDFS是如何做到这些的呢?
王知无-import_bigdata
2019/04/24
1.4K0
Hadoop机架感知
大数据教程-01HDFS的基本组成和原理
起源于2003年谷歌的Google File System相关论文,随后Doug Cutting(我们下面就叫他切哥吧)基于GFS的论文实现了分布式文件系统,并把它命名为NDFS(Nutch Distributied File System)。
马一特
2022/05/10
6070
大数据教程-01HDFS的基本组成和原理
【大数据哔哔集20210122】面试官问我HDFS丢不丢数据?我啪就把这个文章甩到他脸上
HDFS作为分布式文件系统在分布式环境下如何保证数据一致性。HDFS中,存储的文件将会被分成若干的大小一致的block分布式地存储在不同的机器上,需要NameNode节点来对这些数据进行管理,存储这些block的结点称为DataNode,NameNode是用来管理这些元数据的。
大数据真好玩
2021/01/27
1.1K0
【大数据哔哔集20210122】面试官问我HDFS丢不丢数据?我啪就把这个文章甩到他脸上
HDFS 为何在大数据领域经久不衰?
HDFS是最早的大数据存储系统,存储着宝贵的数据资产,各种新算法、框架要想得到广泛使用,必须支持HDFS,才能获取已存储在里面的数据。所以大数据技术越发展,新技术越多,HDFS得到的支持越多,越离不开HDFS。HDFS也许不是最好的大数据存储技术,但依然是最重要的大数据存储技术。
JavaEdge
2022/04/06
3680
HDFS 为何在大数据领域经久不衰?
Apache Hadoop HDFS 架构
HDFS(Hadoop Distributed File System)是Hadoop核心组成之一,是分布式计算中数据存储管理的基础,被设计成适合运行在通用硬件上的分布式文件系统。是一个块结构的文件系统,其中每个文件被划分为预定大小的块。这些块存储在一台或多台计算机的集群中。 HDFS可以部署在支持Java的各种机器上。虽然可以在一台机器上运行多个数据节点,但在实际世界中,这些数据节点分布在各种机器上。总的来说,HDFS架构中有两类节点,一类是NameNode,又叫“元数据节点”,另一类是DataNode,又叫“数据节点”,分别执行Master和Worker的具体任务。HDFS是一个(Master/Slave)体系结构,“一次写入,多次读取”。HDFS的设计思想:分而治之—将大文件、大批量文件分布式存放在大量独立的机器上。架构见下图:
jack.yang
2025/04/05
1680
Apache Hadoop HDFS 架构
Hadoop HDFS 实现原理图文详解
Hadoop分布式文件系统 (HDFS) 是运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。
一个会写诗的程序员
2021/12/16
1.5K0
Hadoop HDFS 实现原理图文详解
【史上最全】Hadoop 核心 - HDFS 分布式文件系统详解(上万字建议收藏)
Hadoop 分布式系统框架中,首要的基础功能就是文件系统,在 Hadoop 中使用 FileSystem 这个抽象类来表示我们的文件系统,这个抽象类下面有很多子实现类,究竟使用哪一种,需要看我们具体的实现类,在我们实际工作中,用到的最多的就是HDFS(分布式文件系统)以及LocalFileSystem(本地文件系统)了。
五分钟学大数据
2021/02/08
2.4K0
【史上最全】Hadoop 核心 - HDFS 分布式文件系统详解(上万字建议收藏)
大数据Hadoop之HDFS认识
源自Google的GFS(Google分布式文件系统)论文,分布式文件系统(HDFS)是GFS的克隆版。HDFS负责数据文件的存储,可让多机器上分享存储空间,让实际上通过网络来访问文件的动作,用户就像是访问本地磁盘一样便捷。 即使HDFS集群中某些节点脱机, 整体来说系统仍然可以持续运作而不会有数据丢失。 HDFS提供了一个低成本、高可靠、高容错、高性能的分布式文件系统。 1.低成本主要体现在搭建HDFS主要是通过横向扩展机器数量而非花高价钱购进昂贵的服务器。 2.高可靠主要体现在 1)、HDFS
小小科
2018/05/04
9850
大数据Hadoop之HDFS认识
【愚公系列】2024年02月 大数据教学课程 022-Hadoop的HDFS
HDFS是Hadoop分布式文件系统(Hadoop Distributed File System)的缩写。它是一种分布式文件系统,旨在将大量的数据存储在Hadoop集群中的多台机器上。HDFS具有高度容错性,并且设计用于在低成本硬件上部署。它允许高吞吐量的数据访问,并为大数据应用程序提供可扩展的存储。HDFS是Apache Hadoop生态系统的关键组件之一,许多组织使用它来存储和处理大型数据集。
愚公搬代码
2025/06/02
1120
【愚公系列】2024年02月 大数据教学课程 022-Hadoop的HDFS
【最全的大数据面试系列】Hadoop面试题大全(一)
1)client 客户端发送上传请求,通过 RPC 与 namenode 建立通信,namenode 检查该用户是否有上传权限,以及上传的文件是否在 hdfs 对应的目录下重名,如果这两者有任意一个不满足,则直接报错,如果两者都满足,则返回给客户端一个可以上传的信息
大数据小禅
2021/12/14
4930
大数据入门:HDFS数据读写机制
作为Hadoop的分布式文件系统的HDFS,是Hadoop框架学习当中的重点内容,HDFS的设计初衷,是致力于存储超大文件,能够通过构建在普通PC设备上的集群环境,以较低成本完成大规模数据存储任务。今天的大数据入门分享,我们就主要来讲讲HDFS数据读写机制。
成都加米谷大数据
2020/12/01
8820
大数据入门:HDFS数据读写机制
Hadoop学习笔记—2.不怕故障的海量存储:HDFS基础入门
  随着社会的进步,需要处理数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是却不方便管理和维护—>因此,迫切需要一种系统来管理多台机器上的文件,于是就产生了分布式文件管理系统,英文名成为DFS(Distributed File System)。
Edison Zhou
2018/08/20
6690
Hadoop学习笔记—2.不怕故障的海量存储:HDFS基础入门
HDFS经典简答题(实习生必看!)
前一段时间,小菌陆续分享了HDFS系列1-12的博客,总算是要完结了。于是小菌打算再出一期关于HDFS的经典面试题,其中的内容大多都出自于在前面分享的博客中,感兴趣的小伙伴们可以自行浏览,链接小菌放到文末了哦~
大数据梦想家
2021/01/22
7460
HDFS经典简答题(实习生必看!)
初识大数据与Hadoop
在大数据时代,基于大数据技术的职位更有钱途,因此成为很多人的职业首选。在大数据技术中,大家常常听到 Hadoop,很多刚开始接触的人会问,什么是 Hadoop?它有什么作用?下面笔者就跟大家唠叨唠叨。
数据森麟
2021/03/09
6410
初识大数据与Hadoop
相关推荐
大数据学习之路05——Hadoop原理与架构解析
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档