尽管 Java 的性能和底层编译型语言没有太大区别,但您可能仍需要调整(Java 虚拟机)JVM 性能以满足应用程序的需求。在可扩展性和性能方面,应用程序的需求和要求可能会有所不同,这时需要持续监控您的 JVM 性能(一些关键指标——内存使用、垃圾收集和线程),以相应地对其进行调整。
我们可以通过使用 JMX Exporter 将应用程序 JMX 对象暴露给 Prometheus 并在 Grafana 中创建所需的图表来监控这些指标。为此,请按照以下步骤操作。
一般 Java 集成 Prometheus 监控指标有两种方式。一种是依赖中引入,另外一种是通过agent执行。
<!-- The client -->
<dependency>
<groupId>io.prometheus</groupId>
<artifactId>simpleclient</artifactId>
<version>0.15.0</version>
</dependency>
<!-- Hotspot JVM metrics-->
<dependency>
<groupId>io.prometheus</groupId>
<artifactId>simpleclient_hotspot</artifactId>
<version>0.15.0</version>
</dependency>
<!-- Exposition HTTPServer-->
<dependency>
<groupId>io.prometheus</groupId>
<artifactId>simpleclient_httpserver</artifactId>
<version>0.15.0</version>
</dependency>
<!-- Pushgateway exposition-->
<dependency>
<groupId>io.prometheus</groupId>
<artifactId>simpleclient_pushgateway</artifactId>
<version>0.15.0</version>
</dependency>
对于基于 Springboot 开发的 Java 框架,一定要引入micrometer-registry-prometheus
这个依赖, Spring Boot使用 Micrometer ,一个应用 metrics 组件,将 actuator metrics 整合到外部监控系统中。
它支持很多种监控系统,比如Netflix Atalas, AWS Cloudwatch, Datadog, InfluxData, SignalFx, Graphite, Wavefront和Prometheus等。
这时只需要在 application 配置文件中添加如下端口配置,即可对外暴露 JVM 指标。
management:
health:
db:
enabled: false
server:
port: 8080
endpoint:
web:
exposure:
include: '*'
exclude: env
health:
show-details: always
shutdown:
enabled: false
metrics:
tags:
application: ${spring.application.name}
下载 Java JMX Jar https://repo1.maven.org/maven2/io/prometheus/jmx/jmx_prometheus_javaagent/0.15.0/jmx_prometheus_javaagent-0.15.0.jar
并将下载的 .jar 文件放在类路径中,具体路径可以自己设计,比如打到镜像特定路径下,或者放到 tomcat 服务指定路径下。
为您的应用程序配置 Config.yaml 文件
将 Jar 作为 Java 代理运行
java $JAVA_OPTS -javaagent:./jmx_prometheus_javaagent-0.13.0.jar=8080:config.yaml -Xlog:gc=debug:file=gc.txt -DApp.config.file=application.properties -cp "orderauditservice.jar: *” org.springframework.boot.loader.JarLauncher
具体如何采集除 JVM 之外的指标,请参考:https://github.com/prometheus/client_java
现在可以通过http://localhost:8080/metrics访问指标
使用 Prometheus 指标准备示例 Grafana 仪表盘,我们可以获取到已经抓取到的指标, springboot 提供了如下指标可用于grafana展示使用。
在上图中,您可以看到平均堆使用量、最大堆使用量和最大分配堆内存, 如果您在特定时间观察到堆内存使用量突然激增,您可以将应用程序响应时间与请求数量相关联,并检查峰值是否是由于请求增加或代码自身问题导致。
在上图中,您可以看到 min GC Count、max GC Count、min GC Time 和 max GC Time。GC 运行的频率,每次 GC 花费的时间。因此,当 GC 发生过于频繁或收集未引用对象所花费的时间太长时,它会影响您的应用程序的性能。这也可能是内存泄漏的另一个迹象,或者它可能只是意味着应用程序需要更多的堆空间。
线程始终处于任何应用程序的中心阶段。线程负责服务用户请求。有足够的空闲线程来接受所有用户请求是很重要的。如果您没有足够的线程,这将增加用户请求的等待时间,进而增加应用程序响应时间。当线程需要较长时间来完成用户请求时,它会将引用的对象在堆内存中保存较长时间。这反过来会影响内存空间,并可能导致 OOM 或 GC 问题。
在上图中,您可以看到 Live、Demon 和 Deadlocked 线程数。
在上图中,您可以看到 Blocked、Waiting 和 Timed Waiting 线程计数。
虽然框架已经为我们提供了各种指标,但是配置关键指标的使用仍然是一个复杂的过程,找出那些指标表明正在运行的应用程序的运行状况和性能,并在使用过程中不断优化和调整。