
每天 SSH 登录服务器,看 CPU、查内存、扫日志、盯告警——这些重复性工作,其实完全可以交给 AI Agent。
本文分享一套零成本、纯自托管的方案,让 AI 每天自动巡检你的服务器,并在发现异常时主动通知你。
核心思路很简单:
┌──────────┐ ┌──────────────┐ ┌───────────┐
│ Cron │────│ AI Agent │────│ 服务器集群 │
│ 定时触发 │ │ (OpenClaw) │ │ SSH + 脚本 │
└──────────┘ └──────┬───────┘ └───────────┘
│
▼
┌──────────────┐
│ 消息通道 │
│ QQ / 微信 │
└──────────────┘写一个 Bash 脚本,收集关键指标:
#!/bin/bash
# /opt/scripts/health-check.sh
echo "=== 系统负载 ==="
uptime
echo ""
echo "=== 内存使用 ==="
free -h
echo ""
echo "=== 磁盘使用 ==="
df -h /
echo ""
echo "=== TOP 5 CPU 进程 ==="
ps aux --sort=-%cpu | head -6
echo ""
echo "=== 网络连接数 ==="
ss -s
echo ""
echo "=== 最近登录 ==="
last -5
echo ""
echo "=== Fail2ban 状态 ==="
fail2ban-client status sshd 2>/dev/null
echo ""
echo "=== Docker 容器状态 ==="
docker ps --format "table {{.Names}}\t{{.Status}}" 2>/dev/nullAI Agent 要做的不只是收集数据,还要做智能判断:
# 伪代码:Agent 的核心判断逻辑
1. 读取巡检报告
2. 和历史基线对比:
- CPU 负载 > 80% 且持续 5 分钟 → 告警
- 磁盘使用 > 85% → 提醒清理
- 内存可用 < 500MB → 告警
- 磁盘 IO 异常升高 → 排查
- 有新的 SSH 登录 IP → 安全提醒
3. 生成巡检报告,推送到消息通道通过 OpenClaw 的 cron 机制,每天自动唤起 Agent:
{
"schedule": { "kind": "cron", "expr": "0 9,21 * * *", "tz": "Asia/Shanghai" },
"payload": {
"kind": "agentTurn",
"message": "执行服务器巡检:SSH到VM-0-10执行health-check.sh,分析结果并与昨日基线对比,如有异常立即通过QQ告警主人"
}
}每天两次(9:00 和 21:00),AI 自动完成巡检并汇报。
不用人工设定阈值。让 Agent 持续记录每天的指标,自动计算 7 天移动平均作为正常基线。偏离超过 2 个标准差才报警——减少误报。
不只报单点指标,而是做关联:
CPU 飙升至 92% + 网络连接数增长 300% → 可能正在遭受 DDoS 攻击
磁盘使用增长 15% + Docker overlay2 暴涨 → 可能有容器日志未轮转
对于一些已知问题,Agent 可以在巡检后自动处理:
docker system prune -fdocker restart 并通知自部署这套方案以来,我的服务器运维模式发生了根本变化:
AI Agent 最实用的场景之一就是运维自动化。它不需要多复杂的模型,关键是:
这三个要素搭好,你就能拥有一个7×24 小时不知疲倦的 AI 运维助手。
本文为作者原创,未经授权禁止转载、洗稿、搬运。如需引用请保留原文链接。