云顾问的风险巡检项包含安全、可靠、服务限制、成本及性能五个类别。
安全
建议您启用腾讯云安全功能以及检查权限,提高系统和业务的安全性。
产品 | 巡检项 | 巡检说明 |
网络 ACL | 网络 ACL 开放公网可访问权限 | 检查网络 ACL 是否放通全量、或者放通除 80、443 以外端口的源 IP 入站访问限制。若放通,容易产生如非法访问、拒绝服务攻击等安全风险。 |
访问管理(CAM) | 访问管理(CAM)账号保护功能未开启 | 检查登录保护、敏感操作保护等功能是否开启;如未开启,相关操作无需进行二次校验,账号存在被盗用风险。 |
DDoS 高防包 | DDoS 高防包协议封禁未开启 | 如出现非业务流量的其他协议类型攻击,开启此封禁后可显著提高攻击检测和封禁的效率。 |
DDoS 高防 IP | DDoS 高防 IP 协议封禁未开启 | 如出现非业务流量的其他协议类型攻击,开启此封禁后可显著提高攻击检测和封禁的效率。 |
内容分发网络(CDN) | 内容分发网络(CDN)IP 访问限频未开启 | 如果不开通 IP 访问限频,无法通过对单 IP 单节点在每一秒钟的访问次数进行限制,可能受到高频 CC 攻击、恶意用户盗刷等。 |
| 内容分发网络(CDN)未开启 HTTPS 巡检 | 检查 CDN 是否开启 HTTPS,如果 CDN 未开启 HTTPS,浏览器会提示不安全,并且有内容劫持风险。 |
| 内容分发网络(CDN)域名未开启任何 URL 鉴权 | 检查 CDN 域名是否开启 URL 鉴权,如果未开启 URL 鉴权,可能会被倒链,被盗刷。 |
对象存储(COS) | 对象存储(COS)子账号访问不受限制 | 检查 COS 存储桶的子账号权限范围。若子账号具有完全控制存储桶的权限,则存储桶可能存在安全风险。 |
| 对象存储(COS)存储桶配置公有读权限风险 | 检查 COS 存储桶的访问权限。若桶权限配置为公有读写或公有读私有写权限,则匿名用户组无需身份验证,即可读取您存储桶中的数据,安全风险高,不推荐此配置。 |
| 对象存储(COS)存储桶关联 CDN 的鉴权配置权限过大 | 检查 CDN 服务回源 COS 时的鉴权配置。开启后 CDN 访问源站时会携带签名,若授予的权限过大,可能导致预期外的越权操作,引起数据安全风险。 |
| 对象存储(COS)存储桶未配置跨域访问头部 | 检查存储桶的 CORS 配置。 若已存在 CORS 规则且未配置 CORS Allow-Headers/Expose-Headers 头部,可能会导致跨域访问请求失败。 |
| 对象存储(COS)存储桶未配置防盗链(Referer) | 检查 COS 存储桶的防盗链设置。若未开启防盗链或开启后允许空 Referer 访问,可能会受到恶意用户或程序盗刷流量,产生预期外的费用。 |
云安全中心(CSC) | 云安全中心(CSC)发现公网 IP 未开启防护 | 检查公网 IP 是否开启互联网边界防火墙开关并设置观察/拦截/严格的防护模式;若公网 IP 未开启防护,易受到各种网络攻击和恶意行为的威胁,如 DDoS 攻击、SQL 注入、远程代码执行等。 |
| 云安全中心(CSC)域名未开启防护 | 检查域名是否已接入 SaaS 型/ CLB 型 Web 应用防火墙开启防护;若域名未开启防护,易受到各种网络攻击和恶意行为的威胁,如 DNS 劫持、域名欺骗、钓鱼攻击等。 |
| 云安全中心(CSC)发现主机未开启防护 | 检查主机是否已被绑定主机安全防护授权;若主机未开启防护,易受到各种网络攻击和恶意行为的威胁,如端口扫描、漏洞利用、密码猜测等。 |
| 云安全中心(CSC)数据库未开启安全防护 | 检查数据库是否已接入云防火墙零信任防护,利用云防火墙反代原理实现对数据库的访问;若数据库未开启防护,易受到各种网络攻击和恶意行为的威胁,如 SQL 注入、数据泄露、DDoS 攻击等。 |
| 云安全中心(CSC)端口风险检查 | 检查云上业务资产是否存在端口风险;若未排查潜在风险并处理,暴露的端口可能会被黑客利用进行攻击。 |
| 云安全中心(CSC)应急漏洞风险检查 | 检查应急漏洞是否影响云上业务资产;若未排查潜在风险并处理,应急漏洞可能会被黑客利用进行攻击,从而导致系统瘫痪、数据泄露等风险。 |
| 云安全中心(CSC)漏洞风险检查 | 检查云上业务资产是否存在漏洞风险;若未排查潜在风险并处理,漏洞可能会被黑客利用进行攻击,从而导致系统瘫痪、数据泄露等风险。 |
| 云安全中心(CSC)发现容器未开启防护 | 检查是否开启对容器的安全防护;若容器未开启防护,易受到各种网络攻击和恶意行为的威胁,如攻击者可能能够从容器内部“逃逸”到宿主机上、漏洞利用、恶意代码被引入等。 |
云原生数据库 TDSQL-C | 云原生数据库 TDSQL-C MySQL 版 root 账号安全 | 检查账号配置,若只存在 root 账号,没有其他应用账号,说明权限过大,存在误操作或恶意操作影响数据安全的风险。 |
TDSQL MySQL 版 | TDSQL MySQL 版实例账号高危命令风险 | 检查账号配置,若所有账号都拥有全局命令权限 DROP 和 DELETE,容易出现数据误删除或恶意删除风险。 |
| TDSQL MySQL 版实例公网安全策略风险 | 检查公网安全策略,若开放公网访问且没有配置安全组规则,有受到外网攻击导致应用异常或数据安全风险。 |
Elasticsearch Service | Elasticsearch 开源版/643基础版集群未开启“用户登录认证” | 检查 Elasticsearch 开源版/643基础版集群是否开启“用户登录认证”。如未开启,可能会出现集群访问安全问题。 |
边缘安全加速平台(EdgeOne) | EdgeOne 未开启 HTTPS | EdgeOne 没有开启 HTTPS。如果不开启 HTTPS,数据在传输过程中可能会被拦截并泄露,给用户的个人信息和敏感数据带来潜在的风险;可能会降低用户对网站的可信度。 |
| 未开启 BOT 防护 | BOT 防护不开启,可能导致攻击影响正常业务运行。 |
| 未配置自定义 DDoS 防护策略 | DDoS 防护默认提供基础安全策略,也可根据特殊业务特点灵活设置,应对不断变化的攻击手法。业务已完成接入并且各项业务参数清晰,默认策略可能无法完全满足防护需求。 |
云数据库(MySQL) | 云数据库(MySQL)root 账号安全风险 | 检查 MySQL 账号配置,若只存在 root 账号,没有其他应用账号,说明权限过大,存在误操作或恶意操作影响数据安全的风险。 |
| 云数据库(MySQL)非 root 账号拥有高危命令权限 | 检查 MySQL 非 root 账号权限范围,若应用账号拥有高危命令权限,如 DROP,DELETE 等,容易出现数据误删除或恶意删除风险。 |
| 云数据库(MySQL)公网安全策略风险 | 检查 MySQL 公网安全策略,若开放公网访问且没有配置安全组规则,有受到外网攻击,导致应用异常或数据安全风险。 |
云数据库(Redis) | 云数据库(Redis)未禁用高危命令 | 检查 Redis 实例禁用命令配置,若高危命令未禁用,容易出现应用阻塞,数据误删等风险。 |
安全组(SG) | 安全组(SG)开放公网/内网可访问权限风险 | 检查安全组是否放通全量,或放通除指定端口之外的源 IP 入站访问限制。若放通,容易产生如非法访问、拒绝服务攻击等安全风险。 |
短信(SMS) | 短信(SMS)未开启盗刷告警 | 检查短信是否开启盗刷告警,未开启可能会发生盗刷事件,造成损失。 |
云数据库(MariaDB) | 云数据库(MariaDB)账号高危命令风险 | 检查账号配置,若所有账号都拥有全局命令权限 DROP 和 DELETE,容易出现数据误删除或恶意删除风险。 |
| 云数据库(MariaDB)公网安全策略风险 | 检查公网安全策略,若开放公网访问且没有配置安全组规则,有受到外网攻击导致应用异常或数据安全风险。 |
容器服务(TKE) | 容器服务(TKE)集群公网访问安全组配置不合理 | 当前集群开启了公网访问,会将集群 API Server 暴露公网。但是并未配置安全组或者安全组规则设置不合理,无法进行访问控制。 |
| 容器服务(TKE)独立集群非安全端口参数配置不合理 | 检查独立集群 API Server 是否开启非安全端口,如果开启了非安全端口,非认证或授权的 HTTP 请求可以通过该端口直接访问 API Server,造成安全问题。 |
| 容器服务(TKE)集群匿名未授权访问风险 | 检查集群匿名未授权访问漏洞。恶意攻击者可能在无需身份验证的情况下直接操作或访问集群内资源,从而导致严重的安全问题与信息泄露。 |
云点播(VOD) | 云点播(VOD)存储和流量被盗用风险 | 检查已配置防盗链的点播应用,播放域名是否都开启防盗链配置,恶意平台可能通过未开启鉴权的播放域名盗用视频文件,进而产生高额播放费用。 |
Web 应用防火墙(WAF) | Web 应用防火墙(WAF)未开启弹性计费 | 未开启 WAF 弹性计费,如果业务流量超过所购 WAF 实例的防护能力,可能会导致业务异常。 |
| Web 应用防火墙(WAF)未开启日志服务 | WAF 未开启日志服务,在业务出现异常时,无法利用 WAF 日志定位问题,可能会影响排障效率。 |
| WAF 基础安全拦截能力未开启 | 检查接入 WAF 的域名是否开启基础安全拦截能力。 |
| WAF 开关未开启 | 检查接入 WAF 的域名是否开启 WAF 开关,降低使用 WAF 后的安全风险。 |
可靠
通过多方位监控,维护实例的运行稳定性。
产品 | 巡检项 | 巡检说明 |
私有网络(VPC) | 网络 ACL 存在空规则风险 | 检查已关联子网的网络 ACL ,如对应网络 ACL 空规则,会默认拒绝所有流量,导致业务不通。 |
API 网关(APIGW) | API 网关 4XX 失败率过高 | 判断近一天 4XX 状态的日志记录占比是否过大。 |
| API 网关 5XX 失败率过高 | 判断近一天 5XX 状态的日志记录占比是否过大。 |
| API 网关生产环境使用共享集群隐患 | API 网关共享集群是多租户共享的,稳定性不如专享集群,一般用于测试开发环境,建议使用专享集群保障业务稳定。 |
云硬盘(CBS) | 云硬盘(CBS)未创建快照 | 检查 CBS 是否有创建快照或定期快照策略,若都没有,服务器或云硬盘出现问题时数据找回非常困难,易造成较大损失。 |
内容分发网络(CDN) | 内容分发网络(CDN)备用源站未配置 | 如果主源站无法服务,则没有备源可用容灾。 |
| 内容分发网络(CDN)缓存规则未配置 | 检查 CDN 域名是否配置缓存规则,如果未配置任何相关缓存规则,可能不符合业务预期。 |
| 内容分发网络(CDN)检查域名封禁风险 | 如果 CDN 域名包含 file.myqcloud.com/image.myqcloud.com 且昨日带宽流量大于100M提示到 COS 控制台配置自定义域名,CDN 域名包含 vod2.myqcloud.com 且昨日带宽流量大于100M提示到 COS 控制台配置自定义域名,当运营商封禁时,可能会误伤到业务。 |
文件存储(CFS) | 文件存储(CFS)实例无快照备份 | 检查 CFS 实例是否创建快照,若未创建快照,则提示风险。 |
| 文件存储(CFS)定期快照备份策略未配置 | 检查 CFS 是否未设置定期快照备份策略,若未设置,则提示风险。 |
| 文件存储(CFS)版本过低 | 检查 CFS 版本是否过低。 |
消息队列(Ckafka) | 消息队列(CKafka)Topic 单副本 | Ckafka 实例存在单副本 Topic,有高可用隐患。 |
| 消息队列(CKafka)使用基础网络风险 | 判断 CKafka 实例是否使用了基础网络。 |
负载均衡(CLB) | 负载均衡(CLB)后端服务单点风险 | 检查 CLB 监听器或转发规则绑定的如 CVM、EVM 等类型的后端服务实例,如果只有一个,存在单点隐患。 |
| 负载均衡(CLB)后端存在串流风险 | 检查同一个地域下负载均衡实例的后端是否存在串流风险。 |
| 负载均衡(CLB)实例未升级域名化 | |
| 负载均衡(CLB)健康检查未配置 | 检查 CLB 是否配置健康检查,若未配置健康检查,CLB 将向所有后端服务器转发流量(包括异常的后端服务器)。 |
| 负载均衡(CLB)实例类型为传统型 | 检查 CLB 实例类型为传统型还是应用型,应用型功能更加丰富,如每个四层监听器可以配置不同的后端服务、支持七层监听器、支持 CLS 日志、SNI、绑定弹性网卡等多种特性。 |
| 负载均衡(CLB)使用了基础网络风险 | 检查 CLB 是否使用了基础网络。 |
对象存储(COS) | 对象存储(COS)存储桶未启用版本控制 | 检查 COS 存储桶的版本控制配置。若未启用版本控制,可能存在数据丢失的风险。 |
| 对象存储(COS)存储桶未接入公网下行流量监控 | 检查 COS 存储桶的云监控(腾讯云可观测平台)告警策略。若未配置外网下行流量告警策略,则不能及时感知流量变化,存在盗刷风险,可能会产生预期外的费用。 |
| 对象存储(COS)未配置跨可用区部署 | 检查 COS 存储桶是否跨可用区部署,如果未跨可用区部署,当出现可用区级别的灾难故障时,可能造成存储桶无法访问风险。 |
| 对象存储(COS)存储桶日志投递失败风险 | 检查 COS 存储桶的日志管理功能。若目标存储桶与源存储桶的所有者不同,则存在存储桶日志投递失败风险。 |
| 对象存储(COS)存储桶返回 500 状态码情况 | 检查 COS 存储桶的 500 状态码情况。若超出默认阈值,则可能存在异常情况。 |
| 对象存储(COS)存储桶返回 400 状态码情况 | 检查 COS 存储桶的 400 状态码情况。若超出默认阈值,则可能存在异常情况。 |
| 对象存储(COS)未接入自定义域名 | 检查 COS 存储桶的自定义域名配置。若未接入自定义域名,可能存在一定的限制。 |
| 对象存储(COS)COS JSON API 历史版本访问链路 | 检查 COS 存储桶的 COS JSON API 历史版本访问链路配置。 |
云服务器(CVM) | 云服务器(CVM)实例使用本地盘风险 | 检查 CVM 实例使用本地盘的情况,若实例为非高 IO 或大数据类型,且使用了本地盘,则磁盘数据无法通过快照备份,存在容灾风险。 |
| 云服务器(CVM)使用基础网络 | 检查 CVM 是否使用基础网络。 |
| 云服务器(CVM)竞价实例回收风险 | 检测到您的账户下存在竞价实例,竞价实例可能会被自动释放,实例数据不会保留。 |
TDSQL-C MySQL 版 | 云原生数据库 TDSQL-C MySQL 版实例未配置跨可用区部署 | 检查实例是否跨可用区部署,如果实例未跨可用区部署,当实例出现可用区级别的灾难故障时,可能造成实例无法访问风险。 |
| 云原生数据库 TDSQL-C MySQL 版实例当前版本不支持SQL限流 | 检查发现您的云数据库(TDSQL-C)实例当前版本不支持SQL限流。当数据库负载过高时,可能无法通过限制异常 SQL 执行进行应急响应。 |
专线接入(DC) | 物理专线(DC)单一接入设备 | 物理专线接入设备检查,如果有2条及以上的物理专线接入同一设备,则提示风险。 |
TDSQL MySQL 版 | TDSQL MySQL 版未配置跨可用区部署 | 检查 TDSQL MySQL 版实例是否跨可用区部署,如果实例未跨可用区部署,当实例出现可用区级别的灾难故障时,可能造成实例无法访问风险。 |
| TDSQL MySQL 版使用基础网络风险 | 判断 TDSQL MySQL 版本是否使用了基础网络。 |
专线接入(DC) | 专线网关(DCG)版本 | 检查专线网关版本,如果低于 V3 版本,则提示风险。 |
| 专用通道(DCX)健康检查未开启 | 检查专用通道是否开启健康检查(仅支持专用通道 2.0)。 |
DNS 解析 DNSPod | DNS解析 DNSPod 未开启快照 | DNS 解析 DNSPod 支持免费对企业版和尊享版套餐开通域名解析记录快照服务,能有效应对数据丢失和快速回滚。 |
域名(Domain) | 域名(Domain)实名审核失败 | 检查域名实名审核状态。 |
Elasticsearch Service 集群 | Elasticsearch 集群未开启自动快照备份 | 检查 Elasticsearch 集群自动快照备份配置,若未配置,则提示风险。 |
| Elasticsearch Service 集群单可用区部署风险 | 检查 Elasticsearch 集群是否是单可用区部署,若 Elasticsearch 集群仅是单可用区部署,如果出现某个机房的可用区不可用的情况,会导致整个 ES 集群不可用。 |
| Elasticsearch 集群存在可更新内核版本 | 集群内核非最新版本,可能存在一些未修复 bug,导致集群状态异常等未知风险。 |
| Elasticsearch 集群索引字段超限 | 检查 Elasticsearch 集群索引字段数是否超限,集群索引字段数超出限制,影响数据写入,需要调整字段数。 |
| Elasticsearch 集群单节点索引分片数超限 | 检查 Elasticsearch 集群分片数是否超出限制,超出限制会影响索引分片分配。 |
弹性 Mapreduce(EMR) | 弹性 MapReduce(EMR)HDFS 存储空间使用率过高 | EMR HDFS 存储空间使用率高。 |
| 弹性 MapReduce (EMR) 存在 HDFS 缺失块 | 检查 EMR HDFS 是否有缺失块情况,如有缺失块说明 HDFS 集群数据异常。 |
| 弹性 MapReduce (EMR) 节点磁盘空间使用率过高 | 检查 EMR 集群节点磁盘空间使用率是否高于阈值,超过阈值会影响组件的正常使用。 |
| 弹性 MapReduce (EMR) HBASE 集群出现 RIT Region | 检查 HBASE 集群处于 RIT Region 的数量,如果大于等于1,则提示风险。 |
| 弹性 MapReduce (EMR) HBASE 集群出现 Dead RS (Dead Region Servers) | 检查 HBASE 集群出现 dead rs 的数量,如果大于等于1,则提示风险。 |
边缘安全加速平台(EdgeOne) | CC 防护策略检查 | 检查策略的限制等级和处置方式,过于严格的处置方式可能会有误拦截。 |
| WEB 防护策略检查 | Web 防护功能提供对 HTTP/HTTPS 协议的应用层防护,可以使用 EdgeOne 预设的安全策略,或者自己定义安全策略,对可能的风险场景不确定时建议处置方式设置为观察,防止产生误封。 |
| BOT 防护策略检查 | BOT 结合访问日志分析,可以进行精细化策略设置,前期未经过分析的处置拦截可能产生误封。 |
| EdgeOne 未开启智能压缩 | 未开启时节点不会根据压缩请求头进行压缩,增加流量消耗。 |
人脸核身(FACEID) | 人脸核身接口服务异常数及异常率-PaaS | 检查服务异常数及异常率,并与阈值对比,评估服务稳定性。 |
| 人脸核身接口耗时-PaaS | 检查接口耗时,并与阈值对比,评估接口耗时稳定性。 |
云直播(CSS) | 云直播(CSS)回源模式容灾配置不合理 | 回源配置不满足容灾要求,异常情况可能导致大规模回源失败进而影响下行播放。 |
| 云直播(CSS)未使用直播码模式 | 检查业务时候有使用直播码模式,当业务使用非直播码模式时,则提示风险。 |
| 云直播(CSS)推流未开启鉴权 | 检查是否开启推流鉴权且是否配置了直播回调,均未开启则提示风险。 |
| 云直播(CSS)线上使用默认推流域名风险 | 检查是否在线上业务中使用云直播默认推流域名。 |
云数据库(MongoDB) | 云数据库(MongoDB)未配置跨可用区部署 | 检查云数据库(MongoDB)实例是否跨可用区部署,如果实例未跨可用区部署,当实例出现可用区级别的灾难故障时,可能造成实例无法访问风险。 |
| 云数据库(MongoDB)oplog 保存时间过短 | 检查 MongoDB oplog 保存时间,若保存时间过短,会导致回档失败或影响问题排查。 |
| 云数据库(MongoDB)使用基础网络风险 | 检查 MongoDB 是否使用基础网络。 |
云监控(Monitor) | 云监控(Monitor)一键告警能力未配置 | 监控告警缺失会导致故障不能及时发现,如果没有配置相应产品的告警则给出提示。 |
云数据库(MySQL) | 云数据库(MySQL)RO 组内存在权重为 0 的实例 | 云数据库(MySQL)RO 实例权重存在0,应用无法访问数据库。 |
| 云数据库(MySQL)主从延迟过高 | 检查 MySQL 主从延迟情况,若延迟过高,可能会导致数据库 RO 实例被剔除,主从 HA 切换时间过长等风险。 |
| 云数据库(MySQL)未配置跨可用区部署 | 检查 MySQL 是否跨可用区部署,如果实例没有跨可用区部署,当实例所在可用区出现严重故障时,数据库会出现无法访问的风险。 |
| 云数据库(MySQL)是否为单节点 - 基础型(云盘版)架构实例 | 检查 MySQL 是否为单节点 - 基础型(云盘版)架构实例,若为单节点架构,则不适用于线上需要高可用性和高可用架构的业务场景。 |
| 云数据库(MySQL)实例自增主键溢出风险 | 云数据库(MySQL)实例的某些表存在自增主键溢出的风险,如果自增主键超过最大可用范围80%,可能会出现写入不及预期的情况。 |
| 云数据库(MySQL)RO 组单点风险 | 检查 MySQL RO 组是否单点,当 RO 组中只有一个实例或仅有一个实例的读权重非零时,该实例故障会导致只读业务不可用。 |
| 云数据库(MySQL)使用基础网络风险 | 检查 MySQL 是否使用基础网络。 |
NAT | NAT 网关 SNAT FAIL 检查 | 检查公网 NAT 网关在访问目的端时,是否存在因连接数超限,导致分配端口失败,出现丢包,从而影响业务。 |
对等连接(PCX) | 对等连接(PCX)跨域 | 检查对等连接是否通过跨域方式打通私有网络,如果对等连接两端绑定的 VPC 属于不同地域,则提示风险。 |
云数据库(PostgreSQL) | 云数据库(PostgreSQL)未配置跨可用区部署 | 检查 PostgreSQL 实例是否跨可用区部署,如果实例未跨可用区部署,当实例出现可用区级别的灾难故障时,可能造成实例无法访问风险。 |
消息队列 RabbitMQ 版 | 消息队列 RabbitMQ 版集群单节点风险 | 单节点集群存在高可用风险,不具备容灾能力。 |
| 消息队列 RabbitMQ 版 打开通道数过多 | 检查通道数是否打开过多,通道打开过多,会导致服务端需要创建大量的资源维持和客户端的通道连接,导致服务端负载较高,从而导致发送耗时较大。 |
| 消息队列 RabbitMQ 版 是否多可用区部署 | 检查消息队列 RabbitMQ 版 是否多可用区部署,单可用区部署的实例不具备容灾能力。 |
| 消息队列 RabbitMQ 版 - 至少有1个 Vhost 未开启镜像队列 | 检查消息队列 RabbitMQ 版 是否存在 Vhost 未开启镜像队列,如果不开启镜像队列,高可用得不到保障,一个节点出问题就不能继续提供服务。 |
云数据库(Redis) | 云数据库(Redis)未配置跨可用区部署 | 检查 Redis 实例是否跨可用区部署,如果实例未跨可用区部署,当实例出现可用区级别的灾难故障时,可能造成实例无法访问风险。 |
| 云数据库(Redis)使用基础网络风险 | 检查 Redis 是否使用基础网络。 |
消息队列 RocketMQ 版 | 消息队列 RocketMQ 版消费组死信数量过多 | 消费组死信数量过多,业务上可能存在问题。 |
| 消息队列 RocketMQ 版重试消息堆积数过多 | 重试消息堆积数过多,业务上可能存在问题。 |
| 消息队列 RocketMQ 版消费组正常订阅积压过多 | 消费组正常订阅积压过多,业务上可能存在问题。 |
| 消息队列 RocketMQ 版集群 TPS 使用率过高 | 检查集群的 TPS 使用率,如果 TPS 使用率过高,可能会造成生产消费异常,影响业务。 |
云函数(SCF) | 云函数(SCF)函数运行时间突增 | 函数运行时间突增,需要排查性能瓶颈。 |
| 云函数(SCF)错误数突增 | 函数运行错误数突增,说明业务健康状态出现了问题,可能会对业务造成影响。 |
私有网络(VPC) | 安全组(SG)存在空规则风险 | 检查已关联实例的安全组,如对应安全组空规则,会默认拒绝所有流量,导致业务不通。 |
云开发 CloudBase | 云开发 CloudBase 资源使用量超限风险 | 如果资源使用量超限又没有开启超限按量,可能会导致客户业务受损,所以认为资源使用量达到一定阈值就需要关注。 |
| 云开发 CloudBase 未开启超限按量 | 检查云开发 CloudBase 是否开启“超限按量”,如未开启“超限按量”能让资源超限,业务系统可能报错。 |
消息队列(TDMQ) | 消息队列(TDMQ)未确认消息数过多 | TDMQ 已发送给消费者但是没有接收到确认信息回传的消息数量较大。 |
| 消息队列(TDMQ)集群状态不健康 | 非健康状态下,集群使用可能面临一定风险。 |
| 消息队列(TDMQ)缺少备份消费者 | 检查是否只有一个消费者,如果采用单个消费者消费,单点挂了会影响消费业务。 |
| 消息队列(TDMQ)缺少死信队列 | 如果没有死信队列,消费者可能无法处理一些特殊情况的消息。 |
云数据库(MariaDB) | 云数据库(MariaDB)未配置跨可用区部署 | 检查实例是否跨可用区部署,如果实例未跨可用区部署,当实例出现可用区级别的灾难故障时,可能造成实例无法访问风险。 |
| 云数据库(MariaDB)主从延迟过高 | 当主从延迟持续过大时,主从数据一致性将得不到保障,此时如果实例发生了 HA 主从切换,极端情况下数据可能出现丢失。 |
| 云数据库(MariaDB)灾备实例未配置 | 检查 MariaDB 灾备实例的配置,若未配置,当实例出现严重故障时,业务访问可能受影响。 |
容器服务(TKE) | 容器服务(TKE)集群 APIServer 负载过高 | 检查集群当前 APIServer 是否高负载。 |
容器服务(TKE) | 容器服务(TKE)集群节点单点风险 | 集群节点只有一个,存在单点故障风险。 |
容器服务(TKE) | 容器服务(TKE)集群节点跨可用区容灾风险 | Node 未均匀分布在各个可用区。 |
容器服务(TKE) | 容器服务(TKE)集群 CoreDNS 高可用风险 | 集群 CoreDNS 高可用存在安全隐患。 |
| 容器服务(TKE)集群 CoreDNS 版本过低 | 集群 CoreDNS 版本小于推荐的基线版本,可能会有性能或稳定性问题。 |
| 容器服务(TKE)集群域名解析存在问题 | 集群当前域名解析功能可能存在问题。 |
| 容器服务(TKE)集群 Pod 状态异常 | Pod 状态异常。 |
| 容器服务(TKE)节点 GPU 状态异常 | 如果当前节点 GPU 状态异常,可能导致 Pod 启动可能存在异常。 |
| 容器服务(TKE)集群内核状态异常 | 检查容器服务(TKE)集群内核状态是否正常,如果不正常,则提示风险。 |
| 容器服务(TKE)节点 IO 异常风险 | 检查节点 IO 是否异常。 |
| 容器服务(TKE)节点进程 D 状态风险 | 检查节点是否存在 D 状态进程,大量的 D 状态进程会导致系统资源的浪费。 |
| 容器服务(TKE)集群未部署云探组件 | 云探功能正在内测期,此集群还未开启云探功能,无法对集群进行全面检查。 |
| 容器服务(TKE)Pod OOM | Pod 由于内存不足 OOM,导致容器异常退出。 |
微服务(TSF) | 微服务(TSF)部署组健康率 | 部署组健康率能反应业务健康程度,如果部分部署组状态不正常,说明可能出现异常。 |
| 微服务(TSF)容器集群内存分配率过高 | 指容器集群中所有 Pod 内存 Request 值的加总比上容器集群中节点可分配内存的加总,比值过高将会导致 pod 无法调度,影响业务启动。 |
| 微服务(TSF)容器集群 CPU 分配率过高 | 指容器集群中所有 Pod CPU Request 值的加总比上容器集群中节点可分配 CPU 的加总,比值过高将会导致 pod 无法调度,影响业务启动。 |
云点播(VOD) | 云点播(VOD)使用默认域名风险 | 检查线上应用是否有使用预置点播域名,包括默认分发域名为预置点播域名,或预置点播域名且带宽峰值大于100Mbps。 |
VPN 连接(VPN) | 私有网络 VPN 通道未连通 | 检查是否存在未联通状态的 VPN 通道,如果执行备用通道切换,可能导致切换失败。 |
服务限制
通过监控可提供的服务资源的最大数量,提醒您按照建议删除资源或请求增加配额。
产品 | 巡检项 | 巡检说明 |
DDoS 高防 IP | DDoS 高防IP 即将到期且未开通自动续费 | 检查实例的过期状态,如果已到期未续费,超过24小时后,产品将不可用,可能影响业务访问。 |
共享带宽包(BWP) | 共享流量包(BWP)用量超限风险 | 检查账号下共享流量包使用是否超限,如果超限,可能会因流量用尽导致计费模式改变。 |
内容分发网络(CDN) | 内容分发网络(CDN)域名绑定证书到期风险 | 如果证书过期,影响 https 访问有效性,https 访问会出现无法访问的情况。 |
| 内容分发网络(CDN)客户域名和加速区域不匹配 | 检查客户域名和加速区域是否匹配,.cn 后缀域名适合国内加速,境外加速域名推荐使用 .com。 |
文件存储(CFS) | 文件存储(CFS)容量使用率过高 | 检查 CFS 容量使用率是否达到90%,若超过90%,则提示风险。 |
负载均衡(CLB) | 负载均衡(CLB)当前地域下公网 CLB 配额不足 | 检查当前地域下的公网 CLB 使用数量是否接近配额,如果接近配额,可能会因配额不足导致无法创建新的负载均衡实例 |
| 负载均衡(CLB)当前地域下内网 CLB 配额不足 | 检查当前地域下的内网 CLB 使用数量是否接近配额,如果接近配额,可能会因配额不足导致无法创建新的负载均衡实例 |
| 负载均衡(CLB)实例到期风险 | 负载均衡(CLB)到期时间检查。 |
| 负载均衡(CLB)当前地域下三网 CLB 配额不足 | 检查负载均衡(CLB)当前地域下三网 CLB 使用数量是否接近配额,如果接近配额,可能会因配额不足导致无法创建新的负载均衡实例 |
| 负载均衡(CLB)的新建连接数高负载 | 检查七层负载均衡的新建连接数是否高负载。 |
| 负载均衡(CLB)带宽上限配置为 1Mbps | 为避免购买时未选择 CLB 带宽(默认1Mbps),对账号下 1Mbps 限速的 CLB 进行扫描,如果出现大流量业务使用该类限速 CLB 的情况,可能会导致严重丢包现象。 |
消息队列(CMQ) | 消息队列(CMQ)积压占比过高 | 消息堆积一般是生产速率大于消费速率或者消费出现阻塞导致,CMQ-消息队列(TDMQ-CMQ)积压占比过高说明业务消费能力不足,需要优化。 |
| 消息队列(CMQ)不可见消息百分比过高 | 不可见消息过多一般是客户端未及时 ACK 导致的,产生不可见消息会消耗一定的内存,因此为了保证队列的稳定性,消费完消息后需要尽快 ACK。 |
云服务器(CVM) | 云服务器(CVM)实例到期风险 | 检查 CVM 到期情况,若付费类型为包年包月的实例即将到期,且未配置自动续费,则在到期后存在实例被销毁的风险。 |
TDSQL-C MySQL 版 | 云原生数据库 TDSQL-C MySQL 版实例存储使用率过高 | 检查存储使用率情况,若存储使用率过高,有可能会出现数据无法写入风险。 |
| 云原生数据库TDSQL-C MySQL 版实例连接数利用率过高 | 检查连接使用率情况,当连接使用率达到100%,业务将出现连接数据库失败的风险。 |
| 云原生数据库 TDSQL-C MySQL 版实例到期风险 | 检查集群的到期情况,若类型为包年包月的集群即将到期,且未配置自动续费,过期后可能会导致业务访问受损。 |
TDSQL MySQL 版 | TDSQL MySQL 版实例数据盘使用率过高 | 检查实例各个分片的磁盘使用率情况,若磁盘使用率过高,有可能会出现数据无法写入风险。 |
| TDSQL MySQL 只读账号只读路由策略配置不合理 | 检查 TDSQL MySQL 的只读账号的只读请求分配策略,如果配置为【直接报错】,那么在备机延迟超过阈值时,会拒绝连接请求,影响业务;如果配置【只从备机读取】,那么当所有备机的延迟均超过阈值,会读取到过期数据;如果数据库含有2个备库,开启【只读固定备机】,那么一个备机延迟不会切换到其他可用备机。 |
| TDSQL MySQL 版实例到期风险 | 检查实例的到期情况,若类型为包年包月的实例即将到期且未配置自动续费,过期后可能会导致业务访问受损。 |
专线接入(DC) | 专用通道(DCX)路由数目 | 检查专用通道的路由数目配额使用率,如果配额超过80%,后续新增业务发给腾讯云网段可能无法联通。 |
DNS 解析 DNSPod | DNS 解析 DNSPod 付费套餐到期风险 | 检查付费套餐是否 15 天内到期且未设置自动续费,如果未设置,套餐用完将立即停服。 |
域名(Domain) | 域名(Domain)到期风险 | 检查域名的到期情况,未配置自动续费的域名过期后可能会导致业务访问受损。 |
弹性公网 IP(EIP) | 弹性公网IP(EIP)即将到期风险 | 弹性公网 IP(EIP)即将到期风险。 |
| 弹性公网 IP(EIP)使用量超过配额风险 | 检查 EIP 在各个地域的使用量,若临近配额或超过配额,容易导致无法申请 EIP 使用。 |
| 弹性公网 IP(EIP)带宽限速配置为 1Mbps | 为避免购买时未选择 EIP 带宽(默认1Mbps),对账号下1Mbps限速的 EIP 进行扫描,如果出现大流量业务使用该类 EIP 的情况,可能会导致严重丢包现象。 |
边缘安全加速平台(EdgeOne) | EdgeOne 证书有效期 | EdgeOne 证书即将过期。证书过期网站出现不安全告警;网站可能被劫持。 |
| EdgeOne 备用源站 | 域名未配置备份源站。如果主源站无法服务,则没有备源可用容灾。 |
即时通信(IM) | 即时通信(IM)回调成功率过低 | 检查 IM 应用回调使用成功率情况,如果成功率过低会影响服务质量。 |
| 即时通信(IM)REST API 触发频率限制 | 前一天 REST API 出现触发频率限制;导入多个账号、删除账号和查询账号超过100次/秒限制或者其余 REST API 超过200次/秒限制。 |
轻量应用服务器(LH) | 轻量应用服务器(LH)实例到期 | 检查 LH 到期情况,若付费类型为包年包月的实例即将到期,且未配置自动续费,则在到期后存在实例被销毁的风险。 |
云直播(CSS) | 云直播(CSS)配置域名CNAME检查 | 域名未正确完成 cname 解析,可能无法使用直播推流播放功能。 |
| 云直播(CSS)带宽超限风险 | 检查带宽封顶是否开启,若开启则检查当前带宽是否即将到顶,带宽触顶后将限制新增用户的访问。 |
云数据库(MongoDB) | 云数据库(MongoDB)实例到期风险 | 检查 MongoDB 实例的到期情况,若类型为包年包月的实例即将到期,且未配置自动续费,过期后可能会导致业务访问受损。 |
| 云数据库(MongoDB)存储容量不足 | 检查 MongoDB 存储容量的使用情况,当容量使用率达到 100% 时,将会导致写入失败。 |
云数据库(MySQL) | 云数据库(MySQL)实例到期风险 | 检查 MySQL 实例的到期情况,若类型为包年包月的实例即将到期,且未配置自动续费,过期后可能会导致业务访问受损。 |
| 云数据库(MySQL)连接使用率过高 | 检查 MySQL 实例连接使用率情况,当连接使用率达到100%,业务将出现连接数据库失败的风险。 |
| 云数据库(MySQL)磁盘使用率过高 | 检查 MySQL 实例磁盘使用率情况,若磁盘使用率过高,有可能会出现数据无法写入风险。 |
| 云数据库(MySQL)磁盘空间接近上限 | 检查 MySQL 磁盘空间是否接近 12T 上限,超出12T之后无法再继续扩容,且有只读风险。 |
NAT | NAT 网关配置 DNAT 的使用量接近上限 | 检查 NAT 网关 DNAT 的使用情况,若使用量接近上限,可能会影响后续新业务部署。 |
云数据库(Redis) | 云数据库(Redis)实例到期风险 | 检查 Redis 实例的到期情况,若类型为包年包月的实例即将到期,且未配置自动续费,如果业务继续使用,可能有访问失败风险。 |
| 云数据库(Redis)内存接近上限 | 检查 Redis 实例内存是否接近 8T 上限。 |
| 云数据库(Redis)副本数达到上限 | 检查 Redis 实例副本数是否达到上限 5 个。 |
云函数(SCF) | 云函数(SCF)资源超过限制 | 当并发超出限制时,会返回资源超过限制报错,造成一定程度的业务影响。 |
| 云函数(SCF)函数执行超时 | 当函数在配置的执行超时时间范围内没有执行完成时会报错,报错有可能会影响客户业务。 |
| 云函数(SCF)函数出现请求受限 | 函数出现请求受限,说明客户的资源不足,可能会影响客户业务正常运作。 |
| 云函数(SCF)函数执行错误率过高 | 函数运行错误率过高,那么业务有可能是处于不健康状态,需要检查下是否有异常情况。 |
| 云函数(SCF)内存超过限制 | 函数运行中实际使用内存超过配置内存时,会有内存超过限制报错,影响客户业务运行。 |
云数据库 SQL Server | 云数据库 SQL Server 实例磁盘利用率超过购买规格风险 | 检查 云数据库 SQL Server 实例的磁盘利用率,磁盘使用空间超过购买规格,有限制数据写入的风险。 |
SSL 证书(SSL) | SSL 证书过期风险 | 账号下存在过期时间小于30天且已授权查询到有关联绑定云资源的 SSL 证书实例。 |
云数据库(MariaDB) | 云数据库(MariaDB)连接使用率过高 | 当连接数使用率达到 100% 时,新增请求将无法建立连接,导致访问失败。 |
| 云数据库(MariaDB)磁盘使用率过高 | 当磁盘使用率达到 100% 时,写入将会失败。 |
| 云数据库(MariaDB)实例到期风险 | 检查 MariaDB 实例的到期情况,若类型为包年包月的实例即将到期且未配置自动续费,过期后可能会导致业务访问受损。 |
| 云数据库(MariaDB)只读账号只读路由策略巡检 | 检查 MariaDB 的只读账号的只读请求分配策略,如果配置为【直接报错】,那么在备机延迟超过阈值时,会拒绝连接请求,影响业务;如果配置【只从备机读取】,那么当所有备机的延迟均超过阈值,会读取到过期数据;如果数据库含有2个备库,开启【只读固定备机】,那么一个备机延迟不会切换到其他可用备机。请客户基于业务需求谨慎配置。 |
容器服务(TKE) | 容器服务(TKE)托管集群资源对象数过多 | 检查集群各资源对象数,如果超过推荐值或最大配额,影响集群稳定性。 |
| 容器服务(TKE)集群网络配额异常 | 检查集群当前 GR 网络 CIDR 配额是否正常,集群当前 VPC-CNI 网络剩余 IP 配额是否正常,以及集群当前 ip-masq-agent-config 配置是否正常。 |
| 容器服务(TKE)节点 Pid 数量消耗过多 | 检查节点 Pid 消耗是否过多,Pid 达到上限会引发进程创建受限制。 |
| 容器服务(TKE)Loopback 客户端证书即将过期 | 检测到 kube-apiserver 实例 Loopback 客户端证书即将过期。 |
实时音视频 (TRTC) | 实时音视频 (TRTC) 未开启后付费 | 检查是否开启后付费,如果未开启,套餐包用完将停服。 |
云点播(VOD) | 云点播(VOD)转码输出文件变形风险 | 由于实际上传的视频宽高比不固定,且存在横竖屏的变化,自定义转码模板如果强制指定了宽高或关闭分辨率自适应,可能会导致转码输出的视频变形。 |
私有网络(VPC) | 私有网络(VPC)路由表使用数量超限风险 | 检查 VPC 路由表的数量,若接近或超过上限值,容易导致无法及时建立新的路由表。 |
VPN 连接(VPN) | 私有网络 VPN 网关(VPNGW)多通道未连通风险 | 检查 VPN 网关下通道连通状态。 |
| 私有网络 VPN 网关(VPNGW)到期风险 | 检查 VPNGW 付费类型,若类型为手动续费或到期不续费,且临近过期,容易导致 VPNGW 服务不可用,影响业务。 |
Web 应用防火墙(WAF) | Web 应用防火墙(WAF)即将到期且未开通自动续费 | 检查实例的过期状态,如果已到期未续费,且超过回收期,产品将不可用,可能影响业务访问。 |
| 证书过期风险 | 检查接入 WAF 的域名证书是否过期。 |
成本
根据运行情况,给出性价比更高的配置建议,降低您的成本花费。
产品 | 巡检项 | 巡检说明 |
云硬盘(CBS) | 云硬盘(CBS)利用率不足 | 检查 CBS 的挂载状态及 IO 读写情况,若 CBS 在近 7 天每天的 IOPS 不超过 1 次,则发出警报。长期闲置的云硬盘会带来不必要的开销。 |
文件存储(CFS) | 文件存储(CFS)未充分利用 | 检查 CFS 是否连续7天 IOPS 平均值小于1。 |
负载均衡(CLB) | 负载均衡(CLB)QPS 利用率过低 | 检查负载均衡(CLB)QPS 低利用率情况,如果利用率小于配额的10%,可能存在冗余成本。 |
| 负载均衡(CLB)实例闲置 | 检查 CLB 后端云资源绑定情况,若未绑定云资源(CVM 实例、弹性网卡),则会判定为实例被闲置,产生额外成本。 |
| 负载均衡(CLB)带宽利用率不足 | 检查账号下按带宽计费公网负载均衡(CLB)带宽利用率,利用率不足则有可能造成资源浪费。 |
| 负载均衡(CLB)低利用率 | 检查 CLB 低利用率情况,如果连接数小于配额的10%,可能存在冗余成本。 |
对象存储(COS) | 对象存储(COS)存储桶未配置生命周期 | 检查 COS 存储桶的生命周期规则。若未配置,则存储桶中的访问热度较低的对象会产生不必要的开销。 |
| 对象存储(COS)存储桶未配置碎片清理规则 | 检查 COS 存储桶生命周期的碎片规则配置。若未配置碎片的清理规则,则可能产生不必要的开销。 |
| 对象存储(COS)未启用数据降冷 | 检查 COS 存储桶是否存在降冷数据。 |
云服务器(CVM) | 云服务器(CVM)实例利用率不足 | 检查 CVM 实例 CPU、网络 I/O 使用情况,若长期低使用率,则提示风险。 |
| 云服务器(CVM)计费模式不合理 | 检查 CVM 实例是否长期(超过2个月)处于按量计费模式,按量计费单价较高,会造成较多不必要的开销。 |
TDSQL-C MySQL 版 | 云原生数据库 TDSQL-C MySQL 版利用率不足 | 检查集群是否闲置,如果业务生命周期已经稳定,长时间的闲置资源对业务成本会造成较多浪费。 |
弹性公网 IP(EIP) | 弹性公网 IP(EIP)闲置 | 检查 EIP 绑定情况,若 EIP 未绑定云资源(CVM 实例、NAT 网关、弹性网卡等),产生额外成本。 |
| 弹性公网IP(EIP)带宽利用率不足 | |
Elasticsearch Service 集群 | Elasticsearch 集群利用率不足 | 检查 Elasticsearch 集群是否存在闲置情况,如果业务生命周期已经稳定,长时间的闲置资源对业务成本会造成较多浪费。 |
轻量应用服务器(LH) | 轻量应用服务器(LH)实例低使用率 | 检查 LH 实例 CPU、网络 I/O 使用情况,若长期低使用率,则提示风险。 |
云数据库(MongoDB) | 云数据库(MongoDB)利用率不足 | 检查实例是否闲置,如果业务生命周期已经稳定,长时间的闲置资源对业务成本会造成较多浪费。 |
云数据库(MySQL) | 云数据库(MySQL)利用率不足 | 检查实例是否闲置,如果业务生命周期已经稳定,长时间的闲置资源对业务成本会造成较多浪费。 |
NAT | 私有网络 NAT 闲置 | 检查 NAT 实例是否配置到路由表中,如果没有配置,则造成 NAT 实例闲置,容易耗费成本。 |
云数据库(Redis) | 云数据库(Redis)利用率不足 | 检查 Redis 实例是否闲置,如果业务生命周期已经稳定,长时间的闲置资源对业务成本会造成较多浪费。 |
云数据库(MariaDB) | 云数据库(MariaDB)利用率不足 | 检查实例是否闲置,如果业务生命周期已经稳定,长时间的闲置资源对业务成本会造成较多浪费。 |
VPN 连接(VPN) | 私有网络 VPN 网关(VPNGW)闲置 | 检查 VPN 网关是否关联 VPN 通道,若未关联,可能产生额外费用消耗。 |
性能
根据监控实例运行中的资源使用情况和最佳实践,为您提供改善性能的建议。
产品 | 巡检项 | 巡检说明 |
云硬盘(CBS) | 云硬盘(CBS)IO 负载过高 | 检查云硬盘(CBS)IO 负载情况,若 IO 负载过高,则发出警告。 |
| 云硬盘(CBS)IOPS 超限 | 检查 CBS 的 IOPS 峰值是否达到该类型 CBS 的配置上限,若已达到会有受到限流的风险。 |
| 云硬盘(CBS)吞吐量超限 | 检查 CBS 的吞吐量峰值是否达到该类型 CBS 的配置上限,若已达到会有受到限流的风险。 |
云联网 | 云联网(CCN)出带宽使用情况 | 检查跨地域的云联网在各个地域的出带宽使用情况,若使用量接近阈值,有限速丢包风险,影响业务。 |
内容分发网络(CDN) | 内容分发网络(CDN)单链接下行限速未开启 | 不处理的话,默认是不进行单链接限速,可能在活动期间产生较大的峰值带宽。 |
| 内容分发网络(CDN)带宽封顶配置 | 如果不关闭,触发带宽封顶以后将关闭 CDN 服务,请求转到源站或者返回 404,该功能可一定程度降低带宽费用,后续需要重新设置域名上线才能使用 CDN 服务。 |
| 内容分发网络(CDN)缓存命中率过低 | 如果命中率比较低,不能有效减少源站压力,提升用户访问速度体验不能达到很好的优化效果。 |
| 内容分发网络(CDN)错误状态码占比过高 | 如果异常状态码较高,可能存在对业务有影响的事件发生或潜在的故障问题。 |
文件存储(CFS) | 文件存储(CFS)吞吐量超限 | 检查 CFS 吞吐量是否大于官网指标的90%,若超过,则提示风险。 |
消息队列(Ckafka) | 消息队列(CKafka)实例磁盘使用率过高 | 检查 CKafka 磁盘使用率,如果节点没有足够的磁盘空间,会导致消息无法落盘。 |
| 消息队列(CKafka)实例连接使用率过高 | 检查 CKafka 连接使用率,当连接使用率达到100%时,客户端将无法创建新的连接。 |
| 消息队列(CKafka)实例生产流量峰值 | 检查 CKafka 秒级生产流量峰值,当生产流量峰值大于峰值带宽时,会产生限流,导致数据写入消息队列 CKafka 变慢。 |
| 消息队列(CKafka)实例消费流量过高 | 检查 CKafka 秒级消费流量峰值,当消费流量峰值大于峰值带宽时,会产生限流使消费速度变慢,可能导致消息堆积。 |
| 消息队列(CKafka)实例触发生产限流 | 检查 CKafka 是否发生生产限流。 |
| 消息队列(CKafka)实例触发消费限流 | 检查 CKafka 是否发生消费限流。 |
负载均衡(CLB) | 负载均衡(CLB)的 QPS 负载过高 | 检查七层负载均衡的 QPS 是否高负载。 |
负载均衡(CLB) | 负载均衡(CLB)公网带宽使用率过高 | 检查公网负载均衡的带宽是否高负载。 |
| 负载均衡(CLB)并发连接负载过高 | 检查负载均衡的并发连接数是否高负载。 |
| 负载均衡(CLB)后端服务器返回 502 状态码 | 检查 CLB 后端服务器是否出现返回 404 或 502 状态码,即无法找到对应资源或网关错误的情况,该类情况容易影响业务质量。 |
对象存储(COS) | 对象存储(COS)5XX 错误率过高 | 检查 COS 的状态码。 若 5XX 状态码出现次数过多、且出现频率占比过大,则可能影响存储桶的正常访问。 |
| 对象存储(COS)存储桶返回 503 状态码情况 | 检查 COS 存储桶的 503 状态码情况。若超出默认阈值,则可能存在异常情况。 |
云服务器(CVM) | 云服务器(CVM)实例内存使用率过高 | 检查 CVM 实例内存使用率情况,若负载过高,则提示风险。 |
| 云服务器(CVM)实例磁盘使用率过高 | 检查 CVM 实例磁盘使用情况,若使用率过高,则磁盘读写会受到影响。 |
| 云服务器(CVM)带宽利用率过高 | 检查 CVM 实例带宽利用率情况,若带宽利用率过高,则网络性能可能会受到影响。 |
| 云服务器(CVM)实例 CPU 使用率过高 | 检查 CVM 实例 CPU 使用率情况,若负载过高,则提示风险。 |
TDSQL-C MySQL 版 | 云原生数据库 TDSQL-C MySQL 版实例 CPU 使用率过高 | 检查 CPU 使用率情况,若使用率过高,可能会出现业务请求延迟增加,甚至无响应等风险。 |
专线接入(DC) | 物理专线(DC)带宽利用率过高 | 检查账号下所有物理专线近期带宽利用率,如果专线带宽长期处于高利用率情况,可能会导致某些业务限速丢包。 |
TDSQL MySQL 版 | TDSQL MySQL 版实例 CPU 使用率过高 | 检查实例各个分片的 CPU 使用率情况,若某个分片使用率过高,可能会出现业务请求延迟增加,甚至无响应等风险。 |
| TDSQL MySQL 版连接使用率过高 | 当连接数使用率达到 100% 时,新增请求将无法建立连接,导致访问失败。 |
专线接入(DC) | 专用通道(DCX)利用率过高 | 检查账号下所有专用通道近期带宽利用率,如果专用通道带宽长期处于高利用率情况,可能会导致某些业务限速丢包。 |
弹性公网 IP(EIP) | 弹性公网IP(EIP)带宽高负载 | |
Elasticsearch Service 集群 | Elasticsearch 集群分片文档数即将达到上限 | 集群分片最大文档数,单个分片文档数有21亿限制。当文档数达到21亿,索引无法写入。需进行索引拆分,规避问题。 |
| Elasticsearch 集群字段数据(fielddata)缓存百分比过大 | 检查 Elasticsearch 设置字段数据(fielddata)缓存的大小。字段数据缓存用于存储内存中的数据结构,如全局序数和文档值,以加速排序、聚合和脚本操作,设置缓存过大会消耗过多内存,导致内存不足。 |
| Elasticsearch 指定 Lucene 布尔查询中允许的子句的最大数量过大 | 检查 Elasticsearch 指定 Lucene 布尔查询中允许的子句的最大数量,过大可能需要更多的计算资源,影响查询性能。 |
| Elasticsearch 聚合查询桶个数最大值过大 | 检查 Elasticsearch 设置搜索操作中聚合桶的最大数量。如果查询返回过多的聚合桶,可能会需要大量的计算资源,影响查询性能。 |
| Elasticsearch 设置过滤器缓存的内存过大 | 检查 Elasticsearch 设置过滤器缓存的内存数值。设置内存过大可能会消耗更多的内存,影响查询性能。 |
| Elasticsearch 缓存总条目的值过大 | 检查 Elasticsearch 设置查询缓存中允许缓存的最大查询数量。设置缓存总条目的值过大可能会消耗更多的内存,影响查询性能。 |
| Elasticsearch 文档写入队列过大 | 检查 Elasticsearch 写线程池的队列大小。文档写入队列过大,可能会消耗更多的内存和 CPU 资源,影响写入性能。 |
| Elasticsearch 文档搜索队列过大 | 检查 Elasticsearch 文档搜索队列大小。文档搜索队列过大,可能会消耗更多的内存和 CPU 资源,影响查询性能。 |
| Elasticsearch 文段合并队列过大 | 检查 Elasticsearch 段合并线程数大小,文段合并队列过大,可能会消耗更多的内存和 CPU 资源,影响查询性能。 |
| Elasticsearch 单个节点最大分片数上限过大 | 检查 Elasticsearch 每个节点上允许的最大分片数量。单个节点最大分片数上限过大,可能会导致资源过载,影响集群稳定性。 |
| Elasticsearch 集群 CPU 使用率过高 | 检查 Elasticsearch 集群所有节点 CPU 使用率最大值。 |
| Elasticsearch 集群磁盘使用率过高 | 检查 Elasticsearch 集群节点最大磁盘使用率,若磁盘使用率过高,有可能会出现数据无法写入风险。 |
| Elasticsearch 集群单分片 size 过大 | 集群单分片 size 过大,可能产生性能瓶颈,导致单分片查询性能差,merge 性能受影响,集群故障恢复过慢。 |
弹性 Mapreduce(EMR) | 弹性 MapReduce (EMR) HDFS 数据节点离群风险 | 检查 HDFS 集群是否存在 datanode 处于 dead 状态。 |
全球应用加速(GAAP) | 全球应用加速(GAAP)并发连接数高负载检查 | 检查账号下 GAAP 通道并发连接数是否高负载。 |
| 全球应用加速(GAAP)带宽接数高负载检查 | 检查账号下 GAAP 通道带宽是否高负载。 |
轻量应用服务器(LH) | 轻量应用服务器(LH)实例磁盘空间使用率过高 | 检查 LH 实例磁盘使用情况,若使用率过高,则磁盘读写会受到影响。 |
| 轻量应用服务器(LH)带宽利用率过高 | 检查 LH 实例带宽利用率情况,若带宽利用率过高,则网络性能可能会受到影响。 |
| 轻量应用服务器(LH)实例 CPU 高负载 | 检查 LH 实例 CPU 使用率情况,若负载过高,则提示风险。 |
| 轻量应用服务器(LH)实例内存高负载 | 检查 LH 实例内存使用率情况,若负载过高,则提示风险。 |
云数据库(MongoDB) | 云数据库(MongoDB)CPU 使用率过高 | 检查 MongoDB 实例 CPU 使用率情况,若使用率过高,可能会出现业务请求延迟增加、等待等风险。 |
云数据库(MySQL) | 云数据库(MySQL)CPU 使用率过高 | 检查 MySQL 实例 CPU 使用率情况,若使用率过高,可能会出现业务请求延迟增加,甚至无响应等风险。 |
| 云数据库(MySQL)实例慢查询过多 | 检查 MySQL 是否存在慢查询,当某个时间段内慢查询数量显著增加时,可能导致实例整体响应速度受到影响。 |
| 云数据库(MySQL)OOM 风险 | 检查 MySQL 是否存在 OOM 风险。 |
云数据库(PostgreSQL) | 云数据库(PostgreSQL)存储空间使用率过高 | 检查存储空间使用情况,若使用率过高,可能会导致新的数据无法写入,影响数据库的正常运行,增加业务请求延迟,甚至可能导致数据丢失或数据库服务无响应。建议定期清理无用数据或扩容保证数据库的正常运行。 |
| 云数据库(PostgreSQL)CPU 使用率过高 | 检查 PostgresSQL 实例 CPU 使用率情况,若使用率过高,可能会出现业务请求延迟增加,甚至无响应等风险。 |
| 云数据库(PostgreSQL)内存使用率过高 | 检查内存使用情况,若使用率过高,可能会导致数据库性能下降,增加业务请求延迟,甚至可能导致数据库服务无响应。 |
云数据库(Redis) | 云数据库(Redis)剩余内存容量不足 | 检查 Redis 实例内存使用率,剩余内存容量过低并且最大内存策略配置为 noeviction,会有数据写入失败的风险。 |
| 云数据库(Redis)Proxy 节点CPU利用率过高 | 检查 Redis 实例的 Proxy 节点 CPU 负载,Proxy 节点的 CPU 利用率高会导致请求的总链路耗时增加,影响业务。 |
| 云数据库(Redis)Proxy 节点出流量触发限流 | 检查 Redis 实例 Proxy 节点出流量限流触发次数,出现限流说明业务峰值访问期间可能已经受损,若限流次数过高,说明业务流量到达上限,业务访问会有延迟增加或失败风险。 |
| 云数据库(Redis)CPU 使用率过高 | 检查 Redis 实例 CPU 使用率,CPU 使用率长期过高可能导致请求延迟上升,阻塞等现象。 |
| 云数据库(Redis)Redis 节点请求数超限 | 检查 Redis 节点请求数是否接近瓶颈。 |
| 云数据库(Redis)未升级为集群版 | 检查 Redis 实例未升级为集群版,非集群版 qps、cpu、内存应对突发流量能力有限。 |
云数据库 SQL Server | 云数据库 SQL Server 实例是否发生明显慢查询或者阻塞 | 检查云数据库 SQL Server 实例是否发生明显慢查询或者阻塞,SQL 运行缓慢容易引起业务请求超时。 |
| 云数据库 SQL Server 实例CPU 使用率是否过高 | 检查云数据库 SQL Server 实例 CPU 使用率,CPU 使用率长期过高,可能导致请求延迟上升、阻塞等现象。 |
云数据库(MariaDB) | 云数据库(MariaDB)CPU 使用率过高 | 当 CPU 使用率较高时,说明当前实例处理繁忙,容易导致查询变慢、堵塞的问题。 |
| 云数据库(MariaDB)活跃连接数过多 | 当活跃连接数过多时,表明实例目前已经处于较高的压力状态,容易出现请求阻塞的情况。 |
容器服务(TKE) | 容器服务(TKE)独立集群资源对象数过多 | 检查独立集群各资源对象数,如果超过推荐值或最大配额,影响集群稳定性。 |
| 容器服务(TKE)节点 iptables 路由数量过多 | 检查节点 iptables 路由数量是否过多,iptables 数量过多会可能会导致性能下降或引发安全问题。 |
| 容器服务(TKE)节点打开文件数量过多 | 检查节点打开文件数量是否接近上限,达到上限会影响节点打开文件。 |
| 容器服务(TKE)节点 Kubelet Pod 日志轮转异常 | 检查节点 Kubelet Pod 日志轮转是否正常,不正常的日志轮转可能引发磁盘被写满。 |
| 容器服务(TKE)节点负载过高 | 检查节点 CPU 使用率,内存使用率,网络出流量,网络入流量是否正常。 |
微服务引擎(TSE) | 微服务引擎 TSE-云原生 API 网关集群 CPU 使用率 | 集群 CPU 使用率过高说明服务端负载过高,为避免造成业务问题需要升配。 |
| 微服务引擎 TSE-云原生 API 网关集群内存使用率 | 集群内存使用率过高说明服务端负载过高,为避免造成业务问题需要升配。 |
微服务(TSF) | 微服务(TSF)应用平均延迟较大 | 检查应用平均延迟,如果对比上一周期上涨明显,说明业务可能有变更或者有瓶颈需要优化。 |