操作场景
云原生 API 网关 Kong 对运行的网关实例提供了多项监控指标,用以监测实例运行情况,例如:4xx请求数、5xx请求数等业务指标,CPU 利用率、内存使用率等系统指标。
您可以根据这些指标实时了解网关实例的运行状况,针对可能存在的风险及时处理,保障系统的稳定运行。本文为您介绍通过 TSE 控制台查看网关实例监控的操作。
支持监控指标及含义
请求监控
实例/节点
指标名 | 指标含义 |
总请求数(Count) | 总请求数。按照所选择的时间粒度统计求和。 |
请求平均时延(ms) | 请求平均时延,按照所选择的时间粒度统计求平均值。 |
请求最大时延(ms) | 请求最大时延, 按照所选择的时间粒度统计求最大值。 |
成功请求数(Count) | 云原生 API 网关返回为1xx,2xx,3xx的请求数量,按照所选择的时间粒度统计求和。 |
4xx请求数(Count) | 客户端发送到云原生 API 网关的是请求非法请求,如鉴权不通过或者超过限流值的错误个数,按照所选择的时间粒度统计求和。 |
5xx请求数(Count) | 云原生 API 网关将消息转发到后端服务,后端服务返回大于等于400错误状态码的个数,按照所选择的时间粒度统计求和。 |
404请求数(Count) | 请求后端服务失败,请求所希望的资源未被在后端服务器上发现,此类错误的个数的统计,按照所选择的时间粒度统计求和。 |
429请求数(Count) | 请求后端服务失败,请求被限流,此类错误的个数的统计,按照所选择的时间粒度统计求和。 |
502请求数(Count) | API 网关尝试执行后端请求时,从后端服务器接收到无效的响应(通常连接服务失败),此类错误的个数的统计,按照所选择的时间粒度统计求和。 |
504请求数(Count) | API 网关尝试执行后端请求时,后端机器不可达,此类错误的个数的统计,按照所选择的时间粒度统计求和。 |
路由
指标名 | 指标含义 |
总请求数(Count) | 总请求数。按照所选择的时间粒度统计求和。 |
请求平均时延(ms) | 请求平均时延,按照所选择的时间粒度统计求平均值。 |
请求最大时延(ms) | 请求最大时延, 按照所选择的时间粒度统计求最大值。 |
网关直接返回的请求数(次) | 网关直接返回的请求数,按照所选择的时间粒度统计求和。 |
网关最大时延(ms) | 网关最大时延,按照所选择的时间粒度统计求最大值。 |
2xx请求数(次) | 返回为2xx 的请求数量,按照所选择的时间粒度统计求和。 |
3xx请求数(次) | 返回为3xx 的请求数量,按照所选择的时间粒度统计求和。 |
4xx请求数(Count) | 客户端发送到云原生 API 网关的是请求非法请求,如鉴权不通过或者超过限流值的错误个数,按照所选择的时间粒度统计求和。 |
5xx请求数(Count) | 云原生 API 网关将消息转发到后端服务,后端服务返回大于等于400错误状态码的个数,按照所选择的时间粒度统计求和。 |
404请求数(Count) | 请求后端服务失败,请求所希望的资源未被在后端服务器上发现,此类错误的个数的统计,按照所选择的时间粒度统计求和。 |
429请求数(Count) | 请求后端服务失败,请求被限流,此类错误的个数的统计,按照所选择的时间粒度统计求和。 |
499请求数(Count) | 云原生 API 网关将消息转发到后端服务,后端服务返回499的请求个数,按照所选择的时间粒度统计求和。 |
502请求数(Count) | API 网关尝试执行后端请求时,从后端服务器接收到无效的响应(通常连接服务失败),此类错误的个数的统计,按照所选择的时间粒度统计求和。 |
504请求数(Count) | API 网关尝试执行后端请求时,后端机器不可达,此类错误的个数的统计,按照所选择的时间粒度统计求和。 |
网关转到后端的请求数(次) | 网关转到后端的请求数,按照所选择的时间粒度统计求和。 |
后端最大时延(ms) | 后端最大时延,按照所选择的时间粒度统计求最大值。 |
后端2xx请求数(次) | 后端服务返回 2xx 的请求数量,按照所选择的时间粒度统计求和。 |
后端3xx请求数(次) | 后端服务返回 3xx 的请求数量,按照所选择的时间粒度统计求和。 |
后端4xx请求数(次) | 后端服务返回 4xx 的请求数量,按照所选择的时间粒度统计求和。 |
后端5xx请求数(次) | 后端服务返回 5xx 的请求数量,按照所选择的时间粒度统计求和。 |
后端404请求数(次) | 后端服务返回 404 的请求数量,按照所选择的时间粒度统计求和。 |
后端429请求数(次) | 后端服务返回 429 的请求数量,按照所选择的时间粒度统计求和。 |
后端499请求数(次) | 后端服务返回 499 的请求数量,按照所选择的时间粒度统计求和。 |
后端502请求数(次) | 后端服务返回 502 的请求数量,按照所选择的时间粒度统计求和。 |
后端504请求数(次) | 后端服务返回 504 的请求数量,按照所选择的时间粒度统计求和。 |
系统监控
实例/节点监控指标
指标名 | 指标含义 |
CPU 利用率(%) | 云原生 API 网关集群的 CPU 使用率,按照所选择的时间粒度统计求平均值 |
内存使用率(%) | 云原生 API 网关集群的内存使用率,按照所选择的时间粒度统计求平均值 |
入带宽流量(Mbps) | 云原生 API 网关集群的入口带宽流量,按照所选择的时间粒度统计求平均值 |
出带宽流量(Mbps) | 云原生 API 网关集群的出口带宽流量,按照所选择的时间粒度统计求平均值 |
TCP 入连接数(个) | 云原生 API 网关集群的 TCP 连接数,按照所选择的时间粒度统计求平均值 |
负载均衡监控指标
指标名 | 指标含义 |
客户端到 LB 的活跃连接数(Count) | 在统计粒度内,从客户端到负载均衡的活跃连接数。 |
客户端到 LB 的非活跃连接数(Count) | 在统计粒度内,从客户端到负载均衡的非活跃连接数。 |
客户端到 LB 的并发连接数(Count) | 在统计粒度内,从客户端到负载均衡的并发连接数。 |
客户端到 LB 的新建连接数(Count) | 在统计粒度内,从客户端到负载均衡的新建连接数。 |
新建连接数利用率(%) | 在统计粒度内,从客户端到负载均衡的新建连接数相比负载均衡规格的新建连接数性能上限的利用率。 |
入流量(MiBytes) | 在统计粒度内,客户端流入到负载均衡的流量。 |
出流量(MiBytes) | 在统计粒度内,负载均衡流出到客户端的流量。 |
入包量(Count/s) | 在统计粒度内,客户端向负载均衡每秒发送的数据包数量。 |
出包量(Count/s) | 在统计粒度内,负载均衡向客户端每秒发送的数据包数量。 |
入带宽(Mbps) | 在统计粒度内,客户端流入到负载均衡所用的带宽。 |
出带宽(Mbps) | 在统计粒度内,负载均衡流出到客户端所用的带宽。 |
入带宽利用率(%) | 在统计粒度内,客户端通过外网访问负载均衡所用的带宽利用率。 |
出带宽利用率(%) | 在统计粒度内,负载均衡访问外网所用的带宽使用率。 |
负载均衡到网关节点的入带宽(Mbps) | 在统计粒度内,负载均衡流入到网关节点所用的带宽。 |
负载均衡到网关节点的出流量(MB) | 在统计粒度内,网关节点流出到负载均衡所用的流量。 |
丢弃连接数(Count) | 在统计粒度内,负载均衡丢弃的连接数。 |
丢弃入带宽(bps) | 在统计粒度内,客户端通过外网访问负载均衡时丢弃的带宽。 |
丢弃出带宽(bps) | 在统计粒度内,负载均衡访问外网时丢弃的带宽。 |
丢弃流入数据包(Count/s) | 在统计粒度内,客户端通过外网访问负载均衡时丢弃的数据包。 |
丢弃流出数据包(Count/s) | 在统计粒度内,负载均衡访问外网时丢弃的数据包。 |
丢弃 QPS(Count) | 在统计粒度内,负载均衡丢弃的请求数。 |
平均请求时间(ms) | 在统计粒度内,负载均衡的平均请求时间。 |
最大请求时间(ms) | 在统计粒度内,负载均衡的最大请求时间。 |
平均响应时间(ms) | 在统计粒度内,负载均衡的平均响应时间。 |
最大响应时间(ms) | 在统计粒度内,负载均衡的最大响应时间。 |
响应超时个数(Count/min) | 在统计粒度内,负载均衡响应超时的个数。 |
每分钟成功请求数(Count/min) | 在统计粒度内,负载均衡每分钟的成功请求数。 |
每秒请求数(Count/s) | 在统计粒度内,负载均衡每秒钟的请求数。 |
QPS 利用率(%) | 在统计粒度内,负载均衡的 QPS 相比负载均衡规格的 QPS 性能上限的利用率。 |
CLB 返回的 3xx 状态码(Count/min) | 在统计粒度内,负载均衡返回 3xx 状态码的个数(负载均衡和网关节点返回码之和)。 |
CLB 返回的 4xx 状态码(Count/min) | 在统计粒度内,负载均衡返回 4xx 状态码的个数(负载均衡和网关节点返回码之和)。 |
CLB 返回的 5xx 状态码(Count/min) | 在统计粒度内,负载均衡返回 5xx 状态码的个数(负载均衡和网关节点返回码之和)。 |
CLB 返回的 404 状态码(Count/min) | 在统计粒度内,负载均衡返回 404 状态码的个数(负载均衡和网关节点返回码之和)。 |
CLB 返回的 499 状态码(Count/min) | 在统计粒度内,负载均衡返回 499 状态码的个数(负载均衡和网关节点返回码之和)。 |
CLB 返回的 502 状态码(Count/min) | 在统计粒度内,负载均衡返回 502 状态码的个数(负载均衡和网关节点返回码之和)。 |
CLB 返回的 503 状态码(Count/min) | 在统计粒度内,负载均衡返回 503 状态码的个数(负载均衡和网关节点返回码之和)。 |
CLB 返回的 504 状态码(Count/min) | 在统计粒度内,负载均衡返回 504 状态码的个数(负载均衡和网关节点返回码之和)。 |
2xx 状态码(Count/min) | 在统计粒度内,网关节点返回 2xx 状态码的个数。 |
3xx 状态码(Count/min) | 在统计粒度内,网关节点返回 3xx 状态码的个数。 |
4xx 状态码(Count/min) | 在统计粒度内,网关节点返回 4xx 状态码的个数。 |
5xx 状态码(Count/min) | 在统计粒度内,网关节点返回 5xx 状态码的个数。 |
404 状态码(Count/min) | 在统计粒度内,网关节点返回 404 状态码的个数。 |
499 状态码(Count/min) | 在统计粒度内,网关节点返回 499 状态码的个数。 |
502 状态码(Count/min) | 在统计粒度内,网关节点返回 502 状态码的个数。 |
503 状态码(Count/min) | 在统计粒度内,网关节点返回 503 状态码的个数。 |
504 状态码(Count/min) | 在统计粒度内,网关节点返回 504 状态码的个数。 |
业务监控
实例
指标名 | 指标含义 |
服务来源健康检查失败总请求数(Count) | 云原生 API 网关集群服务来源健康检查失败总请求数。 |
服务来源健康检查成功总请求数(Count) | 云原生 API 网关集群服务来源健康检查成功总请求数。 |
服务来源健康检查总请求数(Count) | 云原生 API 网关集群服务来源健康检查总请求数。 |
服务来源
指标名 | 指标含义 |
云原生网关注册中心探测失败请求数(Count) | 云原生网关注册中心探测失败请求数 |
云原生网关注册中心探测请求成功数(Count) | 云原生网关注册中心探测请求成功数 |
云原生网关注册中心探测总请求数(Count) | 云原生网关注册中心探测总请求数 |
服务
指标名 | 指标含义 |
云原生网关服务上游节点总数(Count) | 云原生网关服务上游节点总数 |
云原生网关服务上游健康节点总数(Count) | 云原生网关服务上游健康节点总数 |
网关服务上游异常节点数(Count) | 网关服务上游异常节点数 |
云原生网关服务上游异常节点百分比(%) | 云原生网关服务上游异常节点百分比 |
查看监控入口
1. 登录 TSE 控制台。
2. 在左侧导航栏单击云原生 API 网关 > 可观测性,在页面上方选择好网关实例。
3. 设置要查看的视图和时间范围,即可查看以下监控指标信息。