首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

法大大如何实现业务指标的“超跑”级监控?

基于流的业务指标实时监控面板。

本文字数:1381,预计阅读3分钟。

产品技术

继“文印安全解决方案”“合同碎片化存储机制”“安全应急响应中心”之后,法大大内部“超跑级仪表盘”——啊不,“业务指标实时监控面板”正式面世。

大数据时代,如何更好地实时监控业务健康状况,保证业务稳定运行成了许多公司的迫切需求?

对于该问题,法大大大数据研发团队结合该面板这样解释道:

现在的运维工程师与NOC监控人员不仅要确保服务的SLA与可用性,还要关注企业生产环境上各种纷繁复杂的业务实时运行情况。特别是在一些业务尖峰时段,容易出现服务性能瓶颈、接口响应变长、队列堆积等事件,而一旦等事件发生再去应对就容易酿成一些生产事故。

近两年随着云计算技术快速发展与成熟,许多互联网和传统企业都将自己的业务部署迁移到了云端,把底层基础设施交给云服务商去维护,大大降低了运维成本。

但是,为了适应业务的快速发展,线上的虚机、容器等集群不断扩展,光靠少数的运维人员来盯是应付不过来的,通常只能等告警短信、邮件来了,才能感知到相关事态的严重性。

而一般故障发生都是有先兆的,通常会有一些异常的指标抖动,而某些指标并不是系统级别如CPU、连接数等,而是一些跟业务密切相关的指标如过去1分钟的证书签发失败数量。只有在平台“冒烟”(某些业务指标异常)时,尽早的发现并正确的应对,才能避免更大面积的“着火”。

于是,如何更好地实时监控业务健康状况,保证业务稳定运行成了许多公司的迫切需求。

正逢大数据时代的到来,许多大数据开源框架能够了提供很好的解决方案。我们在做了相关调研以后,决定选择基于 Flink+Kafka+Druid+Grafana+Prometheus 并结合部分自研的日志采集器、表达式引擎搭建端到端实时流计算架构。得益于Flink强大的过滤和join能力,我们能够对来自不同机器的消息根据相同的id进行分组聚合,亦或是直接transform然后存储到时序数据库Druid。对于这种对实时要求很高的场景,Druid就像是专门为之而生一样。对于可视化,我们选择了纯前端语言写的Grafana组件,它支持丰富的第三方插件,几乎能够兼容市面上常见的所有数据源,并且它对图表配置的灵活度也非常高。Grafana提供的变量功能有多方便,谁用谁知道。

作为法大大大数据平台下的一个实时监控服务,法大大业务指标实时监控面板目的在于:

1. 可以实现对各类业务平台进行有效的关键业务指标监控,并可以方便的添加新的监控指标;

2. 可以实现各业务组件关键业务指标(TPS、签署量、成功率、响应时间RT、MQ堆积数等)的多维度实时展示;

3. 提供准确的实时报警机制,可以根据不同业务指标设置告警阈值,在业务系统出现异常时产生告警,运维可根据关键业务指标逻辑快速定位异常业务环节与具体服务实例;

4. 给管理层展现业务综合运行情况仪表盘,便于指挥与决策。

本质上来说,这是法大大作为严格遵循高可用产品设计理念的第三方电子合同平台对自身业务流的一个全局监控,法大大的客户本身并不会直接看到这个面板。

有人会问,这跟作为法大大用户的我有什么关系呢?这么理解吧,一些大平台,如电商平台的账户安全并不需要用户自己守护,而是由平台负责,但它却仍然与用户息息相关。而有了业务指标实时监控面板,法大大可以更好地为客户提供可靠、安全、可信的服务。

附法大大业务指标实时监控面板界面:

接口调用监控页面

队列监控页面

CA服务监控页面

注:以上截图系从测试环境截取,不代表真实业务情况。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190806A0PSMH00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券