公司Exchange邮件系统邮件流故障的故障发现、故障处理和故障修复的过程记录和总结反思。帮助自己总结经验和吸取教训,同时也作为一次反面教材让其他运维或管理员吸取教训。
故障发现
昨天下午18点50左右结束团队内培训分享会后,收到同事的反馈,说他们几个人都无法收到外部邮件(Internet上的邮件),故障现象为:Exchange服务器内网收发邮件正常,外网发送正常,但无法收到外部邮件。
因为公司的邮件系统是公司自建的Exchange Server 2010,因此需要运维自己去管理。经过多个外部邮箱的测试发现,的确无法收到外部邮件,这些外部邮箱包括网易、阿里企业邮箱和微软Outlook邮箱。
因为邮件服务是企业核心服务之一,加之已经有同事反馈遇到问题,因此此故障应该是重要紧急故障,必须尽快排除以恢复服务。
注1:如果问题比较严重或者有紧急事件处理流程规定,应该按照流程汇报上级领导和发出通告。
注2:以下是个人看法和经验总结,如有错误敬请指出。
故障处理
面临故障最重要的就是尽快通过排除法进行故障排除以实现服务的最快恢复。因此首先要做的故障排除。由于已经是下班时间,事故虽然重大,但还尚未造成重大影响。
因为在Windows特别是Exchange的运维上个人经验比较欠缺,不能凭经验一下子发现问题,因此只能先根据以往经验,结合Google等逐个排查。
经过初步测试,内部邮件收发正常,内部向外部发送邮件正常,但接收异常。于是开始以下排查。
在排查之前应该先需要搞清楚最近发生的变更,如软件配置,导致变更的操作,特别是两个及以上的管理员共同管理时。因此服务器由一人管理,且最近没有进行过任何更改,是突然出现的问题,因此直接开始排查:
以上3个步骤排除后,应该确定问题是出在邮件服务器身上。开始邮件服务器自身的排查:
故障确认和修复
已经确认为磁盘空间问题导致的触发Exchange的“反压”保护策略。通过释放磁盘空间解决。解决后通告给上级领导和相关人员。
知识点
关于“反压”。以下摘录Microsoft文档库--
反压是存在于 Microsoft Exchange Server 2010 集线器传输服务器和边缘传输服务器上的 Microsoft Exchange 传输服务的一种系统资源监视功能。Exchange 传输可以检测重要资源(例如可用硬盘空间和内存)何时具有压力,并采取操作以尝试阻止服务不可用性。
反压可以防止过多地使用系统资源,并且 Exchange 会尝试传递现有邮件。当系统资源使用率恢复到正常级别后,Exchange 服务器就可以逐渐恢复正常运行。
在 Exchange Server 2007 中,当集线器传输服务器或边缘传输服务器具有资源压力时,它会拒绝传入连接。在 Exchange 2010 中,会接受传入连接,但是会以更慢的速度接受或拒绝通过这些连接传入的邮件。SMTP 主机尝试连接到处于反压下的集线器传输服务器或边缘传输服务器时,连接会成功,但是该主机何时发出 MAIL FROM 命令来提交邮件,则取决于具有压力的资源,Exchange 可能会延迟确认 MAIL FROM 命令或拒绝该命令。
以下摘录自事件查看器:
Microsoft Exchange 传输服务拒绝邮件提交,因为可用磁盘空间已降至配置的阈值之下。
以下资源处于压力之下: 队列数据库日志记录路径(“C:\Program Files\Microsoft\Exchange Server\V14\TransportRoles\data\Queue\”) = 95% [中] [正常=93% 中=95% 高=97%]
反压力导致禁用了以下组件: 从集线器传输服务器提交入站邮件
从 Internet 提交入站邮件
从分拣目录提交邮件
从重播目录提交邮件
从邮箱服务器提交邮件
向远程域传递邮件
正在从队列数据库加载电子邮件(如果可用)
以下资源处于正常状态: 队列数据库路径(“C:\Program Files\Microsoft\Exchange Server\V14\TransportRoles\data\Queue\mail.que”) = 95% [普通] [正常=95% 中=97% 高=99%]
版本存储桶 = 0 [普通] [正常=80 中=120 高=200]
专用字节 = 0% [普通] [正常=71% 中=73% 高=75%]
物理内存负载 = 11% [开始邮件冻结的限制为 94%。]
批处理点 = 0 [普通] [正常=1000 中级=2000 高级=4000]
提交队列 = 0 [普通] [一般=1000 中=2000 高=4000]
注:其实Linux中也有类似的保护机制,如oom,磁盘保留5%,遇到此类知识应该举一反三,触类旁通。
故障反思和总结
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。