作者介绍:简历上没有一个精通的运维工程师,下面的思维导图也是预计更新的内容和当前进度(不定时更新)。
中间件,我给它的定义就是为了实现某系业务功能依赖的软件,包括如下部分:
Web服务器
代理服务器
ZooKeeper
Kafka
RabbitMQ
Hadoop HDFS(本章节)
经过前面的介绍,我们对HDFS已经具有基本的操作能力,现在来说说每个中间件都必须要讲解的监控环节。
服务可用性
hdfs dfsadmin -report
)。存储容量
DFS Capacity
)。DFS Used
) 和非 DFS 使用(如临时文件、OS 占用,Non DFS Used
)。DFS Remaining
) 及使用率百分比。DFS Used
vs 实际物理占用)。文件系统元数据
hdfs dfsadmin -report
下面则是一个单机的数据节点。,如果有多个节点,这里就会显示多个节点。
检查文件系统健康,查找损坏/缺失块。
#当然这里的路径也可以更换为其他的
hdfs fsck /
2. HDFS Web UI
http://<nn-host>:9870/jmx
或 http://<dn-host>:9864/jmx
。Hadoop:service=NameNode,name=FSNamesystemState
:文件系统元数据状态(文件数、块数、缺失块等)。Hadoop:service=NameNode,name=NameNodeActivity
:RPC 操作统计(Ops, AvgTime, QueueLength)。Hadoop:service=NameNode,name=JvmMetrics
:JVM 内存、GC、线程。Hadoop:service=DataNode,name=FSDatasetState-<uuid>
:DN 存储卷状态、容量。Hadoop:service=DataNode,name=DataNodeActivity-<uuid>
:DN IO 操作统计。MissingBlocks
> 0 或 CorruptBlocks
> 0 持续增长。UnderReplicatedBlocks
持续超过阈值(如 1000)。四.接入云原生
#如下这个监控
https://grafana.com/grafana/dashboards/23175-hdfs-datanode/