操作场景
AI 网关对运行的网关实例提供了多维度的监控指标,用以全面监测实例运行状况与 AI 调用质量。监控指标涵盖通用网关性能指标(如请求数、时延、错误码)以及大模型场景特有的 LLM 指标(如 Token 消耗、模型响应耗时)。
您可以根据这些指标实时了解网关实例及各个模型 API 的运行状况,洞察AI调用成本与性能,针对可能存在的风险及时处理,保障 AI 服务的稳定性与成本可控性。本文为您介绍通过 TSF 控制台查看网关默认监控的操作。
操作步骤
1. 登录微服务平台控制台,在左侧导航栏单击云原生智能网关 > 实例列表。
2. 在实例列表页面,单击需要配置的网关实例的“ID”,进入该网关实例的基本信息页面。
3. 在左侧导航栏单击 数据观测。
4. 您可以使用页面顶部的筛选器,从不同维度查看监控数据。
支持监控指标及含义
请求监控
实例/节点
此部分指标适用于所有经过网关的流量,用于评估网关及后端服务的通用性能与健康状况。
指标名 | 指标含义 |
总请求数 | 总请求数。按照所选择的时间粒度统计求和。 |
请求平均时延 | 请求平均时延。按照所选择的时间粒度统计求平均值。 |
请求最大时延 | 请求最大时延。按照所选择的时间粒度统计求最大值。 |
网关直接返回的请求数 | 网关未转发到后端,直接返回响应的请求量(如鉴权失败、触发限流时)。按照所选择的时间粒度统计求和。 |
网关平均时延 | 网关自身处理请求的平均耗时。 |
网关最大时延 | 网关自身处理请求的最大耗时。 |
2xx请求数 | 客户端发送到 AI 网关,请求成功的次数(如 200 OK),按照所选择的时间粒度统计求和。 |
3xx请求数 | 客户端发送到 AI 网关,请求重定向的次数,按照所选择的时间粒度统计求和。 |
4xx请求数 | 客户端发送到 AI 网关的是非法请求,如鉴权不通过或者超过限流值的错误个数,网关直接返回的客户端错误的个数(如 401 鉴权失败、403 权限不足、429 限流)。按照所选择的时间粒度统计求和。 |
5xx请求数 | AI 网关将消息转发到后端服务,后端服务返回的服务端错误的个数(如 500 后端异常、502 后端无效响应、504 后端不可达)。按照所选择的时间粒度统计求和。 |
404请求数 | 请求后端服务失败,请求所希望的资源未在后端服务器上发现,此类错误的个数的统计,按照所选择的时间粒度统计求和。 |
429请求数 | 请求后端服务失败,请求被限流,此类错误的个数的统计,按照所选择的时间粒度统计求和。 |
499请求数 | 请求后端服务失败,客户端在后端响应前主动断开连接,此类错误的个数的统计,按照所选择的时间粒度统计求和。 |
502请求数 | 网关尝试执行后端请求时,从后端服务器接收到无效的响应(通常连接服务失败),此类错误的个数的统计,按照所选择的时间粒度统计求和。 |
504请求数 | 网关尝试执行后端请求时,后端机器不可达,此类错误的个数的统计,按照所选择的时间粒度统计求和。 |
网关转到后端的请求数 | 网关成功转发到后端服务的请求量。按照所选择的时间粒度统计求和。 |
后端平均时延 | 后端服务处理请求的平均耗时。按照所选择的时间粒度统计求平均值。 |
后端最大时延 | 后端服务处理请求的最大耗时。按照所选择的时间粒度统计求最大值。 |
后端2xx请求数 | 后端服务请求成功的次数(如 200 OK),按照所选择的时间粒度统计求和。 |
后端3xx请求数 | 后端服务请求重定向的次数,按照所选择的时间粒度统计求和。 |
后端4xx请求数 | 后端服务是非法请求的次数。按照所选择的时间粒度统计求和。 |
后端5xx请求数 | 后端服务返回的服务端错误的个数(如 500 后端异常、502 后端无效响应、504 后端不可达)。按照所选择的时间粒度统计求和。 |
后端404请求数 | 后端服务资源未在后端服务器上发现,此类错误的个数的统计,按照所选择的时间粒度统计求和。 |
后端429请求数 | 后端服务请求失败,请求被限流,此类错误的个数的统计,按照所选择的时间粒度统计求和。 |
后端499请求数 | 后端服务请求失败,客户端在后端响应前主动断开连接,此类错误的个数的统计,按照所选择的时间粒度统计求和。 |
后端502请求数 | 后端服务请求失败,后端服务接收到无效的响应,此类错误的个数的统计,按照所选择的时间粒度统计求和。 |
后端504请求数 | 后端服务请求失败,后端机器不可达,此类错误的个数的统计,按照所选择的时间粒度统计求和。 |
LLM 专用监控
此部分指标专门用于监控大模型调用场景,帮助您分析 Token 消耗成本与模型提供商性能。
指标名 | 指标含义 |
LLM HTTP 请求次数 | 网关向大模型供应商发起的 HTTP 调用次数。此指标直接反映模型 API 的调用频次。 |
LLM 总消耗 Token 数 | 网关消耗大模型供应商的总 Token 数,即输入(Prompt)与输出(Completion)的实际消耗 Token 数之和。用于评估消耗 Token 总数据吞吐量。 |
LLM prompt 消耗 token 数 | 大模型在处理请求时,模型实际所消耗的输入(Prompt)部分的总 Token 数。 |
LLM completion 消耗 token 数 | 大模型在生成回复时,模型实际所消耗的输出(Completion)部分的总 Token 数。此指标是评估模型调用成本的核心依据之一。 |
LLM 提供商响应平均耗时(ms) | 从网关发送请求到模型提供商,到收到其完整响应的平均耗时。此指标反映模型提供商的端到端响应性能。 |
LLM 提供商平均每 token 耗时(ms) | 模型提供商平均消耗每个 Token 所花费的时间,此指标反映模型提供商 Token 的消耗速度。 |
系统监控
此部分指标适用于所有经过网关的流量,用于评估网关及后端服务的通用性能与健康状况。
实例/节点监控指标
指标名 | 指标含义 |
CPU 使用率 | AI 网关的 CPU 使用率,按照所选择的时间粒度统计求平均值。 |
内存使用率 | AI 网关的内存使用率,按照所选择的时间粒度统计求平均值。 |
入口带宽流量 | AI 网关的入口带宽流量,按照所选择的时间粒度统计求平均值。 |
出口带宽流量 | AI 网关的出口带宽流量,按照所选择的时间粒度统计求平均值。 |
TCP 入连接数 | AI 网关的 TCP 连接数,按照所选择的时间粒度统计求平均值。 |
最大内存使用率 | AI 网关在所选时间粒度内的内存使用率最大值。用于观测内存使用峰值,判断是否存在内存突增风险(如内存泄漏、突发流量压力)。 |
最大CPU使用率 | AI 网关在所选时间粒度内的 CPU 使用率最大值。用于发现 CPU 负载峰值波动,定位计算密集型操作(如复杂鉴权、协议转换)导致的性能突增。 |
运行节点数 | 所选时间粒度内,AI 网关中正常运行的节点数量。反映部署规模与可用节点状态,节点数异常减少可能代表故障或伸缩操作。 |
客户端到网关进程的新建连接数 | 所选时间粒度内,客户端与网关进程之间新建立的 TCP 连接数量。观测短时间内连接建立频率,判断客户端连接活跃度。 |
客户端到网关进程的活跃连接数 | 所选时间粒度内,客户端与网关进程之间处于活跃通信状态的 TCP 连接数量。反映网关当前承载的有效连接负载。 |
客户端到网关进程的非活跃连接数 | 所选时间粒度内,客户端与网关进程之间建立但无活跃通信的 TCP 连接数量。辅助判断连接资源闲置情况,过多可能意味着连接回收 / 管理机制需优化。 |
客户端到网关进程的并发连接数 | 所选时间粒度内,客户端与网关进程之间同时存在的 TCP 连接总数(含活跃、非活跃)。直接反映网关的连接并发压力,是评估网关连接容量的关键指标。 |
客户端到网关进程的入流量 | 所选时间粒度内,从客户端发送到网关进程的总数据量。 |
网关进程到客户端的出流量 | 所选时间粒度内,从网关进程发送到客户端的总数据量。 |
客户端到网关进程的入带宽 | 所选时间粒度内,客户端到网关进程的平均带宽占用量(单位时间内的流量传输速率)。评估客户端到网关的带宽压力,避免带宽瓶颈导致连接 / 传输延迟。 |
网关进程到客户端的出带宽 | 所选时间粒度内,网关进程到客户端的平均带宽占用量(单位时间内的流量传输速率)。与 “入带宽” 结合,分析网关对外带宽负载,防止带宽瓶颈影响响应传输。 |
公网负载均衡监控指标
1. 客户端到 LB 的监控
指标名 | 指标含义 |
入流量 | 在统计粒度内,客户端流入到负载均衡的流量。 |
出流量 | 在统计粒度内,负载均衡流出到客户端的流量。 |
入包量 | 在统计粒度内,客户端向负载均衡每秒发送的数据包数量。 |
出包量 | 在统计粒度内,负载均衡向客户端每秒发送的数据包数量。 |
入带宽 | 在统计粒度内,客户端流入到负载均衡所用的带宽。 |
出带宽 | 在统计粒度内,负载均衡流出到客户端所用的带宽。 |
活跃连接数 | 在统计粒度内,从客户端到负载均衡的活跃连接数。 |
非活跃连接数 | 在统计粒度内,从客户端到负载均衡的非活跃连接数。 |
并发连接数 | 在统计粒度内,从客户端到负载均衡的并发连接数。 |
新建连接数 | 在统计粒度内,从客户端到负载均衡的新建连接数。 |
2. 丢弃/利用率监控
指标名 | 指标含义 |
入带宽利用率 | 在统计粒度内,客户端通过外网访问负载均衡所用的带宽利用率。 |
出带宽利用率 | 在统计粒度内,负载均衡访问外网所用的带宽使用率。 |
并发连接数利用率 | 在统计粒度内的某一时刻,从客户端到负载均衡的并发连接数相比规格的并发连接数性能上限的利用率。 |
新建连接数利用率 | 在统计粒度内,从客户端到负载均衡的新建连接数相比负载均衡规格的新建连接数性能上限的利用率。 |
丢弃连接数 | 在统计粒度内,负载均衡丢弃的连接数。 |
丢弃入带宽 | 在统计粒度内,客户端通过外网访问负载均衡时丢弃的带宽。 |
丢弃出带宽 | 在统计粒度内,负载均衡访问外网时丢弃的带宽。 |
丢弃流入数据包 | 在统计粒度内,客户端通过外网访问负载均衡时丢弃的数据包。 |
丢弃流出数据包 | 在统计粒度内,负载均衡访问外网时丢弃的数据包。 |
丢弃 QPS | 在统计粒度内,负载均衡丢弃的请求数。 |
QPS 利用率 | 在统计粒度内,负载均衡的 QPS 相比负载均衡规格的 QPS 性能上限的利用率。 |
3. LB 到后端的监控
指标名 | 指标含义 |
出流量 | 在统计粒度内,后端服务器流出到负载均衡的流量。 |
入带宽 | 在统计粒度内,负载均衡流入到后端服务器所用的带宽。 |
出带宽 | 在统计粒度内,后端服务器流出到负载均衡所用的带宽。 |
4. 七层协议监控
指标名 | 指标含义 |
CLB 返回的 3xx 状态码 | 在统计粒度内,负载均衡返回 3xx 状态码的个数(负载均衡和网关节点返回码之和)。 |
CLB 返回的 4xx 状态码 | 在统计粒度内,负载均衡返回 4xx 状态码的个数(负载均衡和网关节点返回码之和)。 |
CLB 返回的 5xx 状态码 | 在统计粒度内,负载均衡返回 5xx 状态码的个数(负载均衡和网关节点返回码之和)。 |
CLB 返回的 404 状态码 | 在统计粒度内,负载均衡返回 404 状态码的个数(负载均衡和网关节点返回码之和)。 |
CLB 返回的 499 状态码 | 在统计粒度内,负载均衡返回 499 状态码的个数(负载均衡和网关节点返回码之和)。 |
CLB 返回的 502 状态码 | 在统计粒度内,负载均衡返回 502 状态码的个数(负载均衡和网关节点返回码之和)。 |
CLB 返回的 503 状态码 | 在统计粒度内,负载均衡返回 503 状态码的个数(负载均衡和网关节点返回码之和)。 |
CLB 返回的 504 状态码 | 在统计粒度内,负载均衡返回 504 状态码的个数(负载均衡和网关节点返回码之和)。 |
2xx 状态码 | 在统计粒度内,后端服务返回 2xx 状态码的个数。 |
3xx 状态码 | 在统计粒度内,后端服务返回 3xx 状态码的个数。 |
4xx 状态码 | 在统计粒度内,后端服务返回 4xx 状态码的个数。 |
5xx 状态码 | 在统计粒度内,后端服务返回 5xx 状态码的个数。 |
404 状态码 | 在统计粒度内,后端服务返回 404 状态码的个数。 |
499 状态码 | 在统计粒度内,后端服务返回 499 状态码的个数。 |
502 状态码 | 在统计粒度内,后端服务返回 502 状态码的个数。 |
503 状态码 | 在统计粒度内,后端服务返回 503 状态码的个数。 |
504 状态码 | 在统计粒度内,后端服务返回 504 状态码的个数。 |
最大请求时间 | 在统计粒度内,负载均衡的最大请求时间。 |
平均响应时间 | 在统计粒度内,负载均衡的平均响应时间。 |
最大响应时间 | 在统计粒度内,负载均衡的最大响应时间。 |
响应超时个数 | 在统计粒度内,负载均衡响应超时的个数。 |
每分钟成功请求数 | 在统计粒度内,负载均衡每分钟的成功请求数。 |
每秒请求数 | 在统计粒度内,负载均衡每秒钟的请求数。 |
5. 健康检查监控
指标名 | 指标含义 |
健康检查异常数 | 在统计周期内,负载均衡的健康检查异常个数 |