首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Linux硬盘的检测–smartctl详细介绍

    随着硬盘容量、速度的快速发展,硬盘的可靠性问题越来越重要,今天的单块硬盘存储容量可轻松达到1TB,硬盘损坏带来的影响非常巨大。 不同的文件系统(xfs,reiserfs,ext3)都有自己的检测和修复工具。检测之前可以先使用dmesg命令查看有没有硬件I/O故障的日志,如果有,先用fsck看看是不是文件系统有问题,如果不是则可以使用下面介绍硬盘检测和优化方法来修复它。 grep”error”/va/log/messages*; Linux检测硬盘坏道 使用SMART检测硬盘 SMART是一种磁盘自我分析检测技术,早在90年代末就基本得到了普及每一块硬盘(包括IDE、SCSI),在运行的时候都会将自身的若干参数记录下来,这些参数包括型号、容量、温度、密度、扇区、寻道时间、传输、误码率等。硬盘运行了几千小时后,很多内在的物理参数都会发生变化,某一参数超过报警阈值,则说明硬盘接近损坏,此时硬盘依然在工作,如果用户不理睬这个报警继续使用,那么硬盘将变得非常不可靠,随时可能故障。 启用SMART SMART是和主板BIOS上相应功能配合的,要使用SMART,必须先进入到主板BIOS设置里边启动相关设置。一般从Pentium2级别起的主板,都支持SMART,BIOS启动以后,就是操作系统级别的事情了(Windows没有内置SMART相关工具,需要安装第三方工具软件),好在Linux上很早就有了SMART支持了,如果把Linux装在VMware等虚拟机上,在系统启动时候可以看到有个服务启动报错:smartd。这个服务器就是smart的daemon进程(因为vmware虚拟机的硬盘不支持SMART,所以报错)。smartd是一个守护进程(一个帮助程序),它能监视拥有自我监视,分析和汇报技术(Self-Monitoring, Analysis, and Reporting Technology – SMART)的硬盘。SMART体系使得硬盘能监视并汇报自己的运行状况.它的一个重要特性是能够预测失败,使得系统管理员能避免数据丢失。

    03

    DRBD 管理、故障处理部分

    1、DRBD开机自自动(chkconfig --add drbd),需要注意一下wait time out选项:       wfc-timeout 120;  如果为0的话,它会无限的等待下去;       在配置高可用如keepalived时候,要注意 先保证drbd数据的一致性;然后在启动keepalived       小插曲:       在linux 自起中,先运行 /etc/rc.d/rc#. d  里面设定的脚本,最后是/etc/rc.local ,如果同样是在某运行级别下的脚本,根据S后面的数字,数字越小优先级越高,所以drbd的数字要比keepalived的小一些;   2、磁盘IO故障       推荐配置为 detach 策略;这个时候主从角色状态没有改变,磁盘状态变为diskless(这个需要监控);       模拟实验:       drbd-primary:       drbdadm detach all;       此时磁盘还处于挂接状态;为了正常切换角色,执行以下命令:       drbdadm secondary all;       umount /dev/drbd0;       在drbd-secondary 上执行:       drbdadm primary all;       mount /dev/drbd0 /data   3、更换磁盘     如果secondary节点出现磁盘故障需要换硬盘:     注意:新添加的硬盘的磁盘名如果被占用,需要修改配置文件!     进行的操作:     drbdadm create-md  all     service drbd start     drbdadm attach all     drbdadm secondary all     以上情况 属于内部元数据, 下面可以看看使用外部元数据更换硬盘;     除以上操作外,还有进行 drbdadm invalidate  all     即进行以下操作:     drbdadm create-md all     drbdadm attach all     drbdadm invalidate  all     drbdadm secondary all   4、处理节点故障:     当primary node 出现故障后,Drbd并不升级存活的节点到主,需要集群管理程序重要做。     切换完毕后需要做 的事情:       1)将出现故障的硬件替换为与之类似性能和容量的磁盘。(性能最好一致;替换为磁盘容量比较小,会导致drbd拒绝连接被替换的节点。)       2)安装基本系统和应用程序。       3)安装drbd并从幸存的节点上拷贝/etc/drbd.conf和所有的/etc/drbd.d       4)drbdadm create-md resource (创建元数据设备)       5)service  drbd start       6)drbdadm attach resource (将drbd资源和后端设备连接 )       7)drbdadm syncer resource  (设置drbd资源的同步参数)       8)drbdadm connect resource  (连接对等节点)       Look:千万不要初始化设备,   5、脑裂问题处理 DRBD检测到primary 恢复连接并变成可用,和对等节点达成初步的握手。如果drbd检测到两个节点(也可能是两个节点断开时)都是主角色,它就连接关闭复制的连接。可以在系统日    志中发现:Split-Brain detected, dropping connection!       一个节点将保持始终以StandAlone状态连接资源,另外一个节点也可能处于StandAlone状态(如果两个节点被探测到同时处于裂脑状态),也可能是WFConnection状态(如果对等接在    还没有来得及探测到裂脑就down掉的话)。       必须手工干预选择丢失一个节点的修改被丢失(这个节点被称为裂脑受害者),除非配置drbd的裂脑自动修复。       (在出现脑裂的情况下,service drbd stop 是不会生效的,返回会hang住,一直处于等待状态)       在需要放弃修改的那一端做如下操作:       drbdadm secondary <resource>       drbdadm -- --discard-my-data connect <resource>       在其他节点上(裂脑幸存者),如果它的状态也为StandAlone状态,可输入以下命令:       drb

    01

    Linux 文件系统与日志分析「建议收藏」

    Linux,全称 GNU/Linux,是一套免费使用和自由传播的类 Unix 操作系统,是一个基于 POSIX 的多用户、多任务、支持多线程和多 CPU 的操作系统。伴随着互联网的发展,Linux 得到了来自全世界软件爱好者、组织、公司的支持。它除了在服务器方面保持着强劲的发展势头以外,在个人电脑、嵌入式系统上都有着长足的进步。使用者不仅可以直观地获取该操作系统的实现机制,而且可以根据自身的需要来修改完善Linux,使其最大化地适应用户的需要。   Linux 的基本思想有两点:一切都是文件;每个文件都有确定的用途。其中第一条详细来讲就是系统中的所有都归结为一个文件,包括命令、硬件和软件设备、操作系统、进程等等对于操作系统内核而言,都被视为拥有各自特性或类型的文件。至于说 Linux 是基于 Unix 的,很大程度上也是因为这两者的基本思想十分相近。

    01
    领券