根据我们的业务背景,需要监控3个纬度。
腾讯云监控,可以覆盖1,2场景, 我们只需根据业务需求配置告警策略即可。场景3-Saas层监控可以分为服务状态监控、异常日志监控和接口监控。
由于我们使用了微服务框架TSF,服务状态监控和异常日志监控都可以通过云监控策略进行覆盖。至于接口监控,云监控无法满足需求,主要原因是我们语言框架不是TSF支持spring cloud,我们使用的是golang,微服务框架是公司内部的trpc-go,TSF对此支持不够友好,无法使用TSF的服务/接口监控能力,因此我们只能使用其他监控工具来补齐。
系统使用网关(可理解为nginx)作为接入层,且我们将访问日志存储到了elasticsearch数据库,因此我们可根据接口日志进行分析,使用grafana做可视化监控和告警,es作为数据源。
下图是的访问日志监控大盘。
目前腾讯云grafana可以免费创建,内网访问只收取内网负载均衡费用,非常划算。
[plugins]
allow_loading_unsigned_plugins=goshposh-metaqueries-datasource
插件按需安装,我们添加metaqueries数据插件主要是需要进行聚合计算,例如计算请求成功率,计算所有是请求A,计算所有成功请求B,使用该插件即可写表达式: B/A 来表达成功率,插件帮忙文档见:https://grafana.com/grafana/plugins/goshposh-metaqueries-datasource/
我怀疑时grafana管理控制台的内网ip不是真实的容器IP,于是找腾讯云小助手请教是不是真实的容器IP,小助手说是的,但是最后却一直无法添加数据源,小助手找到研发最终明确了这个内网IP是CLB的IP不是真实容器IP,最后他提供真实容器IP之后,才解决问题。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。