
原文地址 https://response.pagerduty.com/oncall/alerting_principles/#make-the-titlesummary-descriptive-and-concise
我们管理如何收到警报,基于一个简单的原则。 警报是需要人类执行某个动作的。 其他一切都是通知,这是我们无法控制的,也无法采取任何行动来影响它。通知确实有用,但无论如何都不应该吵醒别人。


我们应确保警报包含足够的有用信息,以便快速识别问题和任何可能的补救措施。标题或描述过于笼统的警报毫无用处,反而会造成混淆。我们制定了一套警报内容指南,所有警报都应遵循这些指南。

未经测试的警报就等于没有警报。您无法确定它会在需要时发出警报。测试警报功能是否真正有效对于确保服务正常运行至关重要,应将其纳入任何发布计划/部署工作中。
务必测试所有新增和修改的警报。通常情况下,所有新服务都会在固定的某个周期内进行测试(例如当周新上的服务,会在当周五进行告警测试);但如果您需要更快地完成测试,则应手动进行测试。以下是一些需要测试的内容:
本文系转载,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文系转载,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。