当在负载下运行任何类型的服务器时,有几个资源需要监控,以确保服务器是健康的。在负载下测试系统时,这一点尤其正确。
这方面的一些示例包括CPU利用率、内存使用率,可能还有磁盘空间。我还应该监视哪些其他资源,以及可以使用哪些工具来执行此操作?
发布于 2008-09-16 17:50:12
只要你能负担得起,然后就可以用图形表示/理解/查看结果。监控资源不仅可用于容量规划,还可用于异常检测,异常检测可显著提高您检测安全事件的能力。
您已经有了一个良好的基础图表开始。我还想监控线程的数量、连接的数量、网络I/O、磁盘I/O、页面错误(可以说这与内存使用有关)、上下文切换。
我真的很喜欢munin用图表表示与主机相关的事情。
发布于 2008-09-17 12:58:04
我在生产中广泛使用Zabbix,它附带了一堆有用的默认值。下面是我们配置它来监控的一些例子:
证书过期的Ping时间
任何你可以用Zabbix监控的东西,你也可以附加触发器-这样它就可以重启失败的服务;或者寻呼你来提醒问题。
在性能成为问题之前,现在就收集数据。当它发生时,您会很高兴看到历史基线,以及当您需要追查和惩罚做出糟糕更改的开发人员时,您将能够显示问题开始发生的日期和时间的事实:)
发布于 2008-12-29 15:30:20
我最终使用了dstat,它是vmstat更好看的表亲。
这将显示您需要了解的有关计算机健康状况的几乎所有内容,包括:
https://stackoverflow.com/questions/74993
复制相似问题