去哪儿网也在很多场景依赖Zookeeper,所以我们也一直在摸索怎么更好的运维稳定的Zookeeper集群。在过去的几年我们也踩过一些坑,也因为Zookeeper导致了故障。...现在将我们运维Zookeeper集群的一些经验分享,也欢迎大家提供更好的建议。 那么在打算运维一套Zookeeper集群之前,我们先了解一些Zookeeper的基本原理。...地址 在实际环境中,我们可能因为各种原因比如机器过保,硬件故障等需要迁移Zookeeper集群,所以Zookeeper的地址是一个很头痛的事情。
环境准备 实验机器环境(虚拟机):Linux ky10.x86_64 、Linux CentOS 7.6_x86_64 其中本次实践演示为CentOS 7.6虚拟机。...所以,我们需要额外的命令工具来做支撑,实验之前,先检查下机器已经挂载的磁盘,可使用lsblk命令来查询,如果不了解这个命令, 注意:Linux下对SCSI和SATA设备是以sd命名的,第一个SCSI...执行命令 lsblk 3、 查看未挂载的磁盘 Linux fdisk 是一个创建和维护分区表的程序,它兼容 DOS 类型的分区表、BSD 或者 SUN 类型的磁盘列表。...4、 实施磁盘分区 【格式】fdisk [盘号/盘位置/盘节点] 【实践】执行 fdisk /dev/sdb 在Linux进行挂载。...结束语 通过本文关于在Linux下如何挂载磁盘,以及挂载后开机启动,想必读者都对磁盘分区挂载有所了解。
环境准备 实验机器环境(虚拟机):Linux ky10.x86_64 、Linux CentOS 7.6_x86_64 其中本次实践演示为CentOS 7.6虚拟机。...所以,我们需要额外的命令工具来做支撑,实验之前,先检查下机器已经挂载的磁盘,可使用lsblk命令来查询,如果不了解这个命令,可以参考博主以前的博文:Linux工具|运维工具lsblk使用小妙招 注意:Linux...执行命令 lsblk 3、 查看未挂载的磁盘 Linux fdisk 是一个创建和维护分区表的程序,它兼容 DOS 类型的分区表、BSD 或者 SUN 类型的磁盘列表。...4、 实施磁盘分区 【格式】fdisk [盘号/盘位置/盘节点] 【实践】执行 fdisk /dev/sdb 在Linux进行挂载。...结束语 通过本文关于在Linux下如何挂载磁盘,以及挂载后开机启动,想必读者都对磁盘分区挂载有所了解。
则视为脑裂,会导致数据不一致问题 zk_followers /zk_synced_followers 说明:如果上述两个值不相等,就表示部分follower异常了需要立即处理,很多低级事故,都是因为单个集群故障了太多的...常态下该值应该持续为0,不应该有未处理请求 zk_pending_syncs 说明:常态下该值应该持续为0,不应该有未同步的数据 zk_znode_count 说明:节点数越多,集群的压力越大,性能会随之急剧下降 经验值...需要考虑以机房/地域/业务等维度进行拆分 zk_approximate_data_size 说明:当快照体积过大时,ZK的节点重启后,会因为在initLimit的时间内同步不完整个快照而无法加入集群 经验值...尝试操作 创建/删除/读取节点 说明:在/zookeeper_monitor节点下,定期创建/删除节点,确保该功能可用 建议:创建/zookeeper_monitor节点,不要使用业务节点,避免互相影响 经验值...在弹出的界面选择“远程进程”,输入“服务器IP:9991”(zookeeper服务器的IP和端口) 实践经验 分Group 要确保Zookeeper整个集群可靠运行,就是要确保投票集群可靠。
开发流程新人学习指南 本文定位于为使用 GIT 标准分支开发流程的开发团队新人提供一份参考指南,其中的内容都是我们公司在研发团队初创时所遵循的一些开发流程标准,经过近一年的实践,虽说还有很多不足,但是随着团队经验的丰富和人员的扩张...Linux服务器被黑遭敲诈,如何在3小时内紧急逆袭 作者介绍:陈浩,北信源研发工程师,五年Linux运维工作经验,热衷运维技术研究、实践和团队分享。...看完就会用的 GIT 操作图解分析 无论你是前端还是后台,无论是运维还是移动端研发,GIT 是逃避不了的东西,当然你说你要用 SVN,那不在这次的讨论范围之内。....… 10 个非常有趣的 Linux 命令 Linux 当中有很多比较有趣的命令,可以动手看看,很简单的。...HTTP原理和SSL原理 HTTP协议相关知识也属于前端必备基础知识,是很多公司面试时必问的知识点 一步一步打造 MySQL 高可用平台 作者一步一步打造 MySQL 高可用平台的经验分享
背景介绍: 从事日志系统的开发运维1年多了,Kafka集群一直是系统中最重要的集群之一。及时有效地处理Kafka问题,是保障系统运行稳定的重要工作。...KAFKA相关数据: 磁盘占用量:1000TB/天 (一)常见问题 问题1:磁盘只读故障 服务器X.X.X.X发生了逻辑盘只读故障。...故障描述:硬盘分区/data9 只读, 出错信息:Read-only file system 系统日志数量巨大,持续的数据写入操作,导致磁盘很容易故障,出现故障时,需要尽快停止服务,减少对集群的影响。...image.png image.png 尽快恢复故障机器的方式: 1:等待故障机器修复(根据集群副本情况判断,如果已经单副本在运行,则需要尽快处理)。...(二)Kafka监控 image.png 在运维kafka系统的过程中,我们根据业务的特点,为了能及时发现上述问题,对所有的集群进行了如下方面的监控: 1,生产者offset变化监控(partition
因此做为运维人员,就必须了解一些安全运维准则,同时,要保护自己所负责的业务,首先要站在攻击者的角度思考问题,修补任何潜在的威胁和漏洞。...设置一个相对复杂的密码,对系统安全能起到一定的防护作用,但是也面临一些其他问题,例如密码暴力破解、密码泄露、密码丢失等,同时过于复杂的密码对运维工作也会造成一定的负担。...文件系统安全 1、锁定系统重要文件 系统运维人员有时候可能会遇到通过root用户都不能修改或者删除某个文件的情况,产生这种情况的大部分原因可能是这个文件被锁定了。...2、文件权限检查和修改 不正确的权限设置直接威胁着系统的安全,因此运维人员应该能及时发现这些不正确的权限设置,并立刻修正,防患于未然。下面列举几种查找系统不安全权限的方法。...作为一个安全运维人员,要把握的原则是:尽量做好系统安全防护,修复所有已知的危险行为,同时,在系统遭受攻击后能够迅速有效地处理攻击行为,最大限度地降低攻击对系统产生的影响。
运维,我们是认真的,故障,我们更是认真的。故障,真的是运维最好的老师,因此我才想写这篇文章! 最近互联网也是非常有意思,接二连三的发生故障,让我们一起先回顾一下。...从经验来看,你一定有一些简单粗暴的原则去隔离故障,比如说服务器重启,链路禁用,DNS切换等等。...不断的审视我们运维的能力和IT的能力,说“故障是运维最好的老师”的原因也在于此,它能够不断驱使我们走向更高的成熟度。...我个人的经验如下: 故障的措施必须是可落实,且具体的,要落实到具体的负责人,具体的时间 故障的措施优先是必须技术的,然后是流程,最后是人的 故障的措施可以分为长期措施和临时措施 故障的措施一定要仅仅扣住故障的根因...你们真的重视故障了么?你们真的重视运维了么?故障不能带来运维人的春天,从根本上去意识到运维的重要性,那才是运维人真正的春天。
那么分析问题需要有一定的技术经验积累,并且有些问题涉及到的领域非常广,才能定位到问题。所以,分析问题和踩坑是非常锻炼一个人的成长和提升自我能力。...网络 7.1 说明 网络的监测是所有 Linux 子系统里面最复杂的,有太多的因素在里面,比如:延迟、阻塞、冲突、丢包等,更糟的是与 Linux 主机相连的路由器、交换机、无线信号都会影响到整体网络并且很难判断是因为...Linux 网络子系统的问题还是别的设备的问题,增加了监测和判断的复杂度。...,在高性能nginx开发和分布式缓存redis cluster有着丰富的经验,目前从事分布式存储Ceph工作。...目前供职于滴滴基础平台运维部-技术专家岗位,主要负责分布式Ceph系统。个人主要关注的技术领域:高性能Nginx开发、分布式缓存、分布式存储。 来源:简书,转载请联系作者获得授权
应急目标 在生成环境发生故障时快速恢复服务,避免或减少故障带来的损失,避免或减少故障对客户的影响 应急原则 应第一时间恢复系统,而不是彻底解决呢问题,快速止损 明显资金损失时,要第时间升级,快速止损 指标要围绕目标...不管处于哪个阶段,首先想到的必须是恢复问题,恢复问题不一定能定位问题,也不一定有完美的解决方案,可能通过经验或者开关等。...对数据库的负载、慢查询、连接数等监控 对缓存的连接数、占用内存、吞吐量、响应时间等监控 消息队列的响应时间、吞吐量、负载、堆积情况等监控 定位问题 分析定位过程中先考虑系统最近发生的变化,需要考虑如下几方面 故障系统最近是否上过线...做了哪些事情,及时发生故障,也不会产生影响? 改进措施 根据回顾问题提出的改进措施,以正式的项目管理方式进行统一管理,采用 SMART 原则来跟进 参考 分布式服务架构原理、设计与实战
报名请点击【阅读原文】 Chapter 1 【故障自愈的思路及解决方案】 故障自愈对运维意味着什么 在游戏运维领域,各种专业化解决方案越来越成熟和丰富,各类自动化工具不断涌现,包含发布变更、容量伸缩等多种运维场景的游戏云服务也在逐步优化和推广中...从运维团队核心价值来看,个人认为,相比起对各种运维操作的需求,业务侧更需要运维提供的是全面而高水平的业务质量保障服务,包括对业务架构及部署的优化服务,包括专业而精细化的游戏健康度管理,以及快速的故障处理服务等...运维可以很轻松的接入到自愈中。 故障自愈能够帮助业务运维第一时间查明问题原因、并马上恢复故障,后续还能帮助运维输出阶段性待优化问题形成闭环管理。...我们可以很容易的做到检测出跟生命体征有关的所有指标的结果,但从一堆异常指标很难直接准确的推测出宏观层面的人体健康状况,还需要医生的经验分析。...同时,监控和自动处理完全做到了本地,告警分析收敛等功能实现起来更复杂,需要运维投入的成本也会高很多。 使用自愈服务,运维可以非常轻松的实现这种故障的自动恢复。
来源:运维漫谈 接口信息 当你需要了解有关你登录的设备的网络接口的更多信息时使用接口信息命令。...ping -4 -c 3 192.168.1.10 某些防火墙配置为禁用 ping,但如果你有多个内部网络,我建议你在本地网络上允许 ping,即使你 ping 阻止了 WAN 地址,因为这对于故障排除非常有用...dig -x 8.8.8.8 系统解析命令 systemd-resolve 命令可用于检查当前的 DNS 服务器设置为什么,当我在设置新的内部网络或弄乱路由器上的 DNS 设置时对 DNS 问题进行故障排除时
一、找出占用CPU 内存过高的进程#!/bin/bashecho "-------------------CUP占用前10排序-----------------...
如何看当前Linux系统有几颗物理CPU和每颗CPU的核数?...Linux自动地使用所有空闲的内存作为高速缓冲,当程序需要更多的内存时,它也会自动地减小缓冲的大小。...某个账号登陆linux后,系统会在哪些日志文件中记录相关信息?...在Linux系统下如何按照下面要求抓包:只过滤出访问http服务的,目标ip为192.168.0.111,一共抓1000个包,并且保存到1.cap文件中?...在Linux下如何指定dns服务器,来解析某个域名? dig @DNSip domain.com 35.
作为linux运维,多多少少会碰见这样那样的问题或故障,从中总结经验,查找问题,汇总并分析故障的原因,这是一个Linux运维工程师良好的习惯。...每一次技术的突破,都经历着苦闷,伴随着快乐,可我们还是执着的继续努力,从中也积累了更多的经验,这就是实践给予我们的丰厚回报。...下面汇总了我做项目过程可能出现的故障及解决方法,看看是否与你有共鸣,并对你有帮助?...序号 故障点 分析与解决 1 Linux系统安装初始状态时,找不到硬盘,并无法进入下一步安装 进入COMS设置,找到硬盘设置的相关选项,并设置为兼容模式 2 Linux系统安装时,在硬盘分区完成后,无法继续安装...云计算及运维高薪实战班》2018年03月26日即将开课中,120天冲击Linux运维年薪30万,改变速约~~~~ *声明:推送内容与图片均来源于网络,部分内容会有所改动,版权归原作者所有,如来源信息有误或侵犯权益
作者介绍:简历上没有一个精通的运维工程师。请点击上方的蓝色《运维小路》关注我,下面的思维导图也是预计更新的内容和当前进度(不定时更新)。...本小章内容就是Linux进阶部分的日常运维部分,掌握这些日常运维技巧或者方法在我们的日常运维过程中会带来很多方便。...主要从以下几个部分来讲解: Linux日常运维-主机名&hosts Linux日常运维-history(本章节) Linux日常运维-SSHD(一) Linux日常运维-SSHD(二) Linux日常运维...-ENV(一) Linux日常运维-ENV(二) Linux日常运维-任务计划 history 命令用于显示当前 Bash shell 会话的命令历史记录。
线上更新要有回滚,在同样的环境测试过再上线 运维是一门经验的学科,是一门试错的学科。永远要做最坏的打算。不要寄希望于每次都有逆天的好运气。...设备故障本来就是小概率事件。故障后,备份在失效。可以收拾东西,准备找下家了。 在说一次,不要寄希望于可有可无的运气。重要的事情说三遍。...这些帐户包括linux用户还包括数据库帐户 你的sudo权限是否开放给了某些用户,这些用户是否安全 用户密码是否经常修改,是否加密不让具体人员直接看到,密码强度是否足够,密码重试次数达到一定次数是否黑名单...你的生产环境和线下环境是否隔离,数据库是否和外网隔离 是否一些工作明明可在开发库和测试库做,却被放到生产环境上去了 是否有专门人员负责线上应用发布,从而避免开发人员接触生产环境 交接和休假最容易出故障
流程机制故障发现后,On-Call 的 SRE 或 运维,故障指挥官 有权召集相应的业务开发或其它必要资源,快速组织 事故处理小组。...如果问题和恢复过程非常明确,故障指挥官 仍然是 SRE 或 运维,就不做转移,由他来指挥每个人要做的具体事情,以优先恢复业务优先。...详细流程图```sequenceOnCall运维->故障:发现故障OnCall运维->OnCall运维: 初步分析故障原因OnCall运维->事故处理小组: 召集业务开发或其它必要资源事故处理小组->事故处理小组...: 事故反馈(10-15分钟一次)事故处理小组->事故处理: 事故排查OnCall运维-->高管: 问题疑难,影响范围很大,事故升级高管-->事故处理小组: 全权管理,进行下一步协商处理事故处理->事故处理...运维->事后总结: 组织故障复盘会议Note right of 事后总结: 总结原因,解决问题事后总结->事故处理小组: 输出会议总结,故障报告```COPY事故业务现象由谁在什么时间点报什么问题,尽量详细
系列专题:Linux运维入门教程 ---- Linux系统中的iostat是I/O statistics(输入/输出统计)的缩写,iostat工具将对系统的磁盘操作活动进行监视。...testsuite/sadist/iostat sysstat-10.1.5-19.el7.x86_64 : Collection of performance monitoring tools for Linux...实践 3.1 常用参数 [root@devvm ~]$ iostat -x Linux... avg-cpu: %user %nice %system %iowait %steal %idle
作者:任仲禹 爱可生 DBA 团队成员,擅长故障分析和性能优化,文章相关技术问题,欢迎大家一起讨论。...OOM 是 Redis 最常见的内存故障,它影响很大: 故障发生时,进程并不会退出,能读但无法写入。...本文中,我会给大家分享下该种内存问题的排查方向及运维命令。 Redis 内存消耗划分 ? 简短介绍下 Redis 内存消耗划分情况,为下文诊断提供思路。...实用命令 上文排查过程有些 Redis 运维命令我认为比较实用,整理如下: 模拟 Redis 压力相关命令 # 1.
领取专属 10元无门槛券
手把手带您无忧上云