线上的mongodb是复制集模式的。为了便于监控mongodb的慢查询等状态,在3台机器上都部署了packetbeat,通过抓取27017端口的流量发送到ES集群。
但是第二天发现zabbix告警,显示某一台机器A(从节点)上的mongod进程宕了。日志显示是OOM导致的。
再一想到,我们每天的mongodb的备份脚本是通过远程主机连接到机器A的27017端口进行dump数据的,通过对比zabbix的网卡流量趋势图、备份脚本的执行时间、message日志中OOM的时间点,可以分析出就是因为mongodump时候产生的大量的数据包被packetbeat抓取到并缓存住,造成服务器的内存被吃光了。
解决方法:
关闭这个机器A(从节点)上面的packetbeat进程,或者配置计划任务以确保备份数据的时候,packetbeat进程不要开启。
当然,这里我们还可以用cgroup限制住packetbeat使用的内存大小,这样的话,最多导致packetbeat宕掉,不会影响到mongod进程的正常工作。
具体配置步骤如下:
/etc/init.d/cgconfig start
自动会在/cgroup/下生成一堆文件。
mkdir /cgroup/memory/packetbeat/
echo 1024M > /cgroup/memory/packetbeat/memory.limit_in_bytes ## 限制物理内存总量不超过1024M
echo 1050M > /cgroup/memory/packetbeat/memory.memsw.limit_in_bytes ## 限制虚拟内存总量不超过1024M
## 带 memsw 的表示虚拟内存,即物理内存加交换区。不带 memsw 的那组仅包括物理内存。其中, limit_in_bytes 是用来限制内存使用的,其他的则是统计报告。
cgexec -g memory:packetbeat /etc/init.d/packetbeat start 即可启动packetbeat
通过cgroup限制后,当packetbeat使用的内存达到限额,进程会被kill。
参考:
http://www.topjishu.com/5898.html
补充:CentOS7上使用cgroup的方法:
yum install libcgroup-tools -y
systemctl start cgconfig
cgcreate -g memory:/packetbeat
echo 2048M > /sys/fs/cgroup/memory/packetbeat/memory.limit_in_bytes
echo 2048M > /sys/fs/cgroup/memory/packetbeat/memory.memsw.limit_in_bytes
cgexec -g memory:packetbeat /etc/init.d/packetbeat start