云监控问题

最近更新时间:2025-07-18 15:14:02

我的收藏

“数据拉取配置”该怎么配置?

说明:
数据拉取链路:

下面提到的数据延迟,均是指云产品到腾讯云可观测平台的延迟。
若配置为0,Prometheus 会使用当前时间戳,覆盖数据的原始时间戳。
使用场景:保证数据时间戳的实时性,以最大限度保证 Prometheus 能及时发出告警。
若配置为某个大于0的值 x:
只要是大于0的值,Prometheus 就会保留数据的原始时间戳。
使用场景:与云产品控制台监控页的时间戳保持一致。
延迟拉取数据的时间窗口(延迟量等于 x)。
问题背景:为了兼容云产品监控数据上报链路的时延,Prometheus 默认以 (now-固定时延,now) 的时间范围拉取数据。
使用场景:若个别产品上报链路时延过大,此处需设置 x,使得拉取数据的时间范围变为:(now-固定时延-x,now-x),以保证在这个延迟的窗口内,能更大限度地拉取到数据。

数据偶尔会产生1 - 2分钟的断点?

数据拉取配置为0:一般不会产生断点。产生断点时请 提交工单
数据拉取配置非0:查看集成日志,如果没有明显报错,则可能是延迟波动导致的断点。此时可观察指标正常时的延迟,将数据拉取配置重新设置为该延迟大小,例如3分钟的延迟,就设置为180,如果断点情况未能改善,请 提交工单
注意:
重新设置数据拉取配置会影响当前集成中的所有云产品,如果只是个别云产品数据有断点,建议单独新建一个集成。
延迟波动:部分云产品监控数据,其延迟并不是稳定的。当延迟突然变低时,意味着一分钟内落盘了多个数据点,而云监控集成每一分钟只会采集最新的数据点,这就会导致断点。

数据与云产品控制台监控页对不上?

一般是因为数据拉取配置是0 ,因为忽略了原始数据的时间戳,在云产品监控数据延迟影响下,相同时间点的数据就会对不上。
Prometheus 12:00的数据值,在云产品控制台监控页上却是11:58分的值?
云产品上报数据到腾讯云可观测平台,会有几分钟的延迟,例如 Prometheus 在12:00去拉取数据,拉取到的最新点的时间戳是11:58(假设数据有2分钟的延迟),Prometheus 会忽略该时间戳,将其作为12:00的数据。
云产品控制台监控页上11:59的值,在 Prometheus 上怎么找不到?
继续上面的例子,Prometheus 在12:01去拉取数据,拉取到的最新点的时间戳依然是11:58(部分云产品的延迟波动较大,例如偶尔延迟会增加到3分钟),因为忽略了原始时间戳,Prometheus 还是将其作为12:01的数据;Prometheus 在12:02去拉取数据,拉取到的最新点的时间戳是12:00(当延迟恢复到2分钟时,会丢失中间的点),将其作为12:02的数据。此时就会发现11:59的值丢失了。
如果不希望出现上面的问题,可以配置数据拉取配置为非 0,具体如何配置可以参考 “数据拉取配置”该怎么配置数据偶尔会产生1 - 2分钟的断点

Targets 显示有问题?

无采集对象:刚创建的集成需要等待几分钟才能展示正确的 Targets。
(1/2)down:集成采用滚动更新,在新 pod 成功运行之前会继续采集旧 pod,期间就会显示两个 Targets。

某个云产品没采集到指标?

1. 已集成下,查看如下信息:
查看实例信息是否含有该云产品,没有则说明未勾选该云产品。
确定 Targets up 状态。
查看指标明细中是否有该云产品指标,若有则等待一分钟后再查询。

2. 确定所选地域下有该云产品实例。
3. 查看是否配置了实例 ID 过滤云标签过滤,确定对应配置能获取到该云产品实例。
4. 查看是否配置了 Metric Relabel 配置,确定对应配置没有过滤该云产品指标。

如何重启集成/更新集成版本

1. 已集成下,单击需要操作的集成名称,进入集成编辑页。

2. 直接单击保存


如果遇到产品相关问题,您可咨询 在线客服寻求帮助。