Linux 服务器的监控是确保其运行正常和高效的关键。在这篇文章中,我们将介绍 30 个有趣的工具和服务,帮助您更好地监控和管理您的 Linux 服务器。这些工具和服务涵盖了各种不同的方面,包括系统性能监控、日志分析、网络流量分析和安全性等。下面就让我们来一一了解它们吧!
OOM(Out of Memory)是指内存不足的问题,通常会导致应用程序崩溃或挂起。在开发和运维中,OOM 是一种常见的问题。如何避免 OOM、如何快速定位和解决 OOM 问题,是 Web 应用开发和运维工程师需要掌握的重要技能。本文将介绍一次实际线上 OOM 问题,并分享相应的性能优化经验。
公司日志系统目前日均处理数据10T左右,查询经常出现数据延迟问题且延迟经常在4-5个小时以上,但是服务器的1分钟load值经常不高于5,鉴于解析端的配置为16C_32G的配置,该现象并没有充分的利用CPU资源,单纯的扩容解析器资源虽然能解决问题,但是并没有从根本解决,优化数据流程架构图去除不必要项,并分析解析器性能瓶颈问题到底出现在哪里?
其他关键设置项:并发用户数、pacing、log(一般设置为关闭)、ThinkTime(一般设置为关闭)、Multithreading(分process和thread方式,一般选择thread,部分脚本不支持thread时选择process)。
马哥linux运维 | 最专业的linux培训机构 ---- 网上有很多的文章教怎么配置mysql服务器,但考虑到服务器硬件配置的不同,具体应用的差别,那些文章的做法只能作为初步设置参考,我们需要根据自己的情况进行配置优化,好的做法是MySQL服务器稳定运行了一段时间后运行,根据服务器的”状态”进行优化。 查看MySQL服务器配置信息: show variables; 查看MySQL服务器运行的各种状态值: show global status; 1. 慢查询 show variables like '%
之前分享过一篇有关Linux的操作命令,内容很全,但是比较基础。然而,实际工作中用到的比那些稍复杂些,本篇分享一些开发工程师必须具备的实战Linux命令。 1.日志查询类 1.1 按关键字不分页查询 grep "applyId” app.log //applyId为要查询的关键字,app.log为日志名 1.2 按关键字从前往后分页查询 cat -n app.log | grep "applyId" | more 以上命令会分页输出,使用空格键翻页,使用回车键显示更多 1.3 按关键字只显示最后M行查询 t
在使用操作系统的过程中,我们经常需要查看当前的性能如何,需要了解CPU、内存和硬盘的使用情况;本节介绍的这几个工具能满足日常工作要求
快速提问:你的驱动器剩余多少剩余空间?一点点还是很多?接下来的提问是:你知道如何找出这些剩余空间吗?如果你碰巧使用的是 GUI 桌面( 例如 GNOME、KDE、Mate、Pantheon 等 ),则任务可能非常简单。但是,当你要在一个没有 GUI 桌面的服务器上查询剩余空间,你该如何去做呢?你是否要为这个任务安装相应的软件工具?答案是绝对不是。在 Linux 中,具备查找驱动器上的剩余磁盘空间的所有工具。事实上,有两个非常容易使用的工具。
CloudLinux通过将每个客户端限制在称为轻量级虚拟环境(LVE)的隔离安全环境中来提高服务器的稳定性,LVE是CloudLinux开发的内核技术。
在CDSW1.7及以后版本引入了Prometheus + Grafana提供了一套可视化的Dashboard,可以监视CDSW中各个Pod是如何使用集群的CPU/GPU、内存及存储资源。Prometheus是一个内部的时序数据源,会自动记录CDSW中每个部署资源使用数据,Grafana是一个可视化的监控仪表盘,可以自定义自己的监控图表。CDSW默认已提供了3个Grafana的Dashboards:K8 Cluster,K8s Container 和K8 Node,通过提供的基础监控仪表盘可以创建更多的自定义监控图表。本文档会介绍如何查看及使用Grafana。
使服务器响应更快,并防止应用程序中出现内存不足错误的最简单方法之一是添加一些swap空间。Swap是存储驱动器上的一个区域,操作系统可以在该区域临时存储无法再保存在内存中的数据。
很多新手都在使用 Memcached 或者 Redis 扩展来加速服务器数据库的运行性能,其实这些扩展对于小博客的服务器来说有时候是个负担和安全隐患的,具体可以参考【理智冷静的使用 Memcached 或者 Redis】一文,那么不使用优化扩展我们如何来提升 MySQL 或 MariaDB 数据库的运行性能呢?
最快的时间内,通过不同命令对Linux系统状态的把控,也是运维的基本功。今天一起来汇总一下,看看都有哪些。 1 使用w查看系统负载 相信所有的linux管理员最常用的命令就是这个 w 了,该命令显示的信息还是蛮丰富的。第一行从左面开始显示的信息依次为:时间,系统运行时间,登录用户数,平均负载。第二行开始以及下面所有的行,告诉我们的信息是,当前登录的都有哪些用户,以及他们是从哪里登录的等等。其实,在这些信息当中,我们最应该关注的应该是第一行中的 ‘load average:’ 后面的三个数值。 第一个
本篇文章内容主要是为了方便通过远程终端维护服务器时, 查看服务器上当前 系统日期和时间 / 磁盘空间占用情况 /程序执行情况。
服务器硬件有没有问题,网络、存储、内存、CPU情况有没有问题。如果有普罗米修斯、zabbix监控,可以直接查看监控,如果没有则需要进入服务器进行定位。
5、vmstat [m] [n](显示服务器的CPU使用率,内存使用,虚拟内存交换情况,IO读写情况。间隔m秒钟显示一次,一共显示n次 )
这些问题在日常开发中可能被很多人忽视(比如有的人遇到上面的问题只是重启服务器或者调大内存,而不会深究问题根源),但能够理解并解决这些问题是Java程序员进阶的必备要求。本文将对一些常用的JVM性能调优监控工具进行介绍,希望能起抛砖引玉之用。本文参考了网上很多资料,难以一一列举,在此对这些资料的作者表示感谢!关于JVM性能调优相关的资料,请参考文末。
最近腾讯云有台服务器有几次登陆的时候和以前比稍微慢了点,就用 Xshell 连接上去看了一下 CPU 的占用情况,同时观察腾讯云服务器后台的 CPU 实时监测,二者结合起来看看目前这台云服务器的运行情况如何,索性把过程写出来分享给新手,希望能帮到你们。 监测 CPU 和内存占用可以用安全狗之类的软件客户端在本地电脑实现,那样同样需要安装服务器端,会占用一些资源;不爱安装软件或者偶尔才观察一次的可以看看下面手动的办法。 首先这台云服务器用的是 lnmp1.4 的生产环境,从购买到现在有 6 个多月没重启了,这
我们开发的软件服务需要在服务器上运行,所以服务器性能代表了软件的性能上限,因此服务器性能调优是个十分重要的环节,然而大部分同学对服务器性能调优关注的较少,今天从3个部分对服务器性能调优进行介绍,分别是:服务器配置选择,服务器负载分析,服务器内核参数调优。
负载均衡:在动态负载均衡器上设置动态分发负载的机制后,如果发现某个应用服务器上的硬件资源已经达到极限,动态负载均衡器会将后续请求发送到其他负载较轻的应用服务器上。此时若发现动态负载均衡器没有起到作用,则可以认为是网络瓶颈;
ps命令能给出当前系统中进程的快照。下面我们列举几个常用的选项 使用 -a 参数。-a 代表 all。同时加上x参数会显示没有控制终端的进程。 ps -ax 通过我们会查找某类或包含某些指定关键字的进程,这是会使用管道结合grep命令来进一步过滤结果。 例如查找java相关的进程ps -ax | grep java 有时我们则需要根据CPU和内存的使用情况来过滤排序筛选结果,这样便于快速找到哪个进程最耗CPU、内存 ps -aux 根据CPU的使用升序排序 ps -aux --sort -pcpu 根据内存使用升序排序 ps -aux --sort -pmem 上述两个命令合并一起,如下: ps -aux --sort -pcpu,+pmem 只显示前几个进程,例如显示前十个,需要使用管道结合head命令。 ps -aux | head -n 10
sysfs把连接在系统上的设备和总线组织成为一个分级的文件,它们可以由用户空间存取,向用户空间导出内核的数据结构Q以及它们的属性。sysfs的一个目的就是展示设备驱动模型中各组件的层次关系。
事故现象: 机房一台服务器运行一段时间后,突然发现系统资源即将被耗尽! 1)top命令查看一下系统的cpu ram swap的使用情况 由上图分析,可以看出 1--共有602个进程,但其中有601个进
当我们物理内存小的时候,会出现OOM,然后服务自动死掉的情况。因为物理内存大小是固定的,有没有其他好的办法来解决呢?这里我们可以适当调整Linux的虚拟内存来协作。
目前一共包含以下4个脚本,其中DB_healthcheck_lhr_v6.0.1_ALL_RW.sql 是读写版本,在脚本执行过程中会对数据库做DDL(创建一些用到的临时表)和DML操作(对自己创建的临时表DML操作),但是,在脚本执行后会清理掉创建的临时表,基本上不会留下任何痕迹。而脚本DB_healthcheck_lhr_v1.0.0_10g_RO.sql、DB_healthcheck_lhr_v1.0.0_11g_RO.sql和DB_healthcheck_lhr_v1.0.0_2c_RO.sql分别对应10g、11g和12c及其以上版本,这3个脚本都是只读版本,这3个脚本只会对数据库做查询操作,不会做DML和DDL操作,这也是很多朋友所期待的功能。
大家都清楚Redis内存占用情况:与存储的数据量、配置参数、服务器内存大小等因素有关。在默认情况下,Redis 会使用尽可能多的内存,直到服务器的内存资源被占满。
1、配置文件参数my.cnf tmp_table_size=64M max_heap_table_size=64M tmpdir = /data/mysql/tmp 2、优化Tips: 如果Created_tmp_disk_tables/ Created_tmp_tables应该小于20%,如果比值较高,就需要适当调高tmp_table_size或者max_heap_table_size的值,让Mysql在内存中完成临时表的操作,减少使用硬盘对性能和响应时长的影响。 在调高tmp_table_size或者m
数据库的进程是端口存在,并不意味着数据库是可用的。 通过网络连接到数据库并且确定数据库是可以对外提供服务的。 如何确认数据库是否可以通过网络连接 MySQL本地的SQL 并不意味着可以连接到数据库服务器,防火墙,TCP/IP mysqldamin -umonitor_user -p -h ping telnet ip db_port 使用程序通过网络建立数据库连接 如何确认数据是否可以读写 检查数据库的read_only 参数是否为off 主从切换 新的主库原先是从库 造成主库不可写,定期对主从服务器中主数据库的read_only参数进行检查。 建立监控表并对表中数据进行更新。 判断数据库是否可读 select@@version
原文链接:https://www.cnblogs.com/lonelyJay/p/10076158.html
Perfetto是用于性能检测和跟踪分析的生产级开源堆栈。它提供用于记录系统级和应用程序级跟踪的服务和库,本机Java堆分析,使用SQL分析跟踪的库以及基于Web的UI以可视化的系统性能分析。在Android上,Perfetto是下一代系统性能的分析工具,它取代了systrace。 仍完全支持SYSTRACE.
任何进程都与文件关联;我们会用到lsof工具(list opened files),作用是列举系统中已经被打开的文件。在linux环境中,任何事物都是文件,设备是文件,目录是文件,甚至sockets也是文件。用好lsof命令,对日常的linux管理非常有帮助。
线上集群后端某台Web服务器例行检查时,我观察到+buffers/cache值(即Linux内存的实际使用情况)一直都是5365左右,就算停掉Nginx+FastCGI程序和其它程序也是一样,考虑到这台机器经常在使用rsync+inotify,肯定会存在着频繁存取文件的情况。而Linux系统有一个特性:在Linux下频繁存取文件时,就会占用物理内存。当程序结束时并不会自动释放被占用的内存,而是一直作为Cache存在。实际上内核结束一个程序后,它是会释放内存的,但是内核并没有立刻将这部分收集到free当中,而是存在在cached或者buffer当中,提高系统的io效率,cache和buffered的内存是由内核进行动态的配置管理,如果系统的free大小不够的时候,系统会自动释放cache buffer的内存给程序使用(因此如果是看到used很多,来手动释放内存其实是不需要的,我前面的文章及书籍其实也说明了我们应该如何观察Linux系统的实际内存使用情况,这里就不再多描述了)。
sar是System Activity Reporter(系统活动情况报告)的缩写。sar工具将对系统当前的状态进行取样,然后通过计算数据和比例来表达系统的当前运行状态。它的 特点是可以连续对系统取样,获得大量的取样数据;取样数据和分析的结果都可以存入文件,所需的负载很小。sar是目前Linux上最为全面的系统性能分析 工具之一,可以从14个大方面对系统的活动进行报告,包括文件的读写情况、系统调用的使用情况、串口、CPU效率、内存使用状况、进程活动及IPC有关的 活动等,使用也是较为复杂。 sa
Linux中查看网卡流量工具有iptraf、iftop以及nethogs等,iftop可以用来监控网卡的实时流量(可以指定网段)、反向解析IP、显示端口信息等。
在jvm中有很多的参数可以进行设置,这样可以让jvm在各种环境中都能够高效的运行。绝大部分的参数保持默认即可。
在服务器运维过程中,经常需要对服务器的各种资源进行监控,例如:CPU的负载监控,磁盘的使用率监控,进程数目监控等等,以在系统出现异常时及时报警,通知系统管理员。本文介绍在Linux系统下几种常见的监控需求及其shell脚本的编写。
本文档是完成***压力测试的指导性文件。本文档给出了对测试需求、测试环境、测试过程及测试结果的总体要求, 这也是本测试项目中其他文档编写及结果评价的基础。
目前一共包含6个脚本,若脚本的扩展名为“.sql”则表示该脚本为sql脚本,若脚本的扩展名为“.pl”则表示该脚本为perl脚本。
通过前几章内容的学习,我们已经可以很容易地进入云服务器及从 github 拉取代码。本章内容将会为你介绍如何查看云服务的基本配置。
原文:https://blog.csdn.net/u010521062/article/details/115908166
最近正在进行从Spring Boot往Spring Cloud上改造升级。之前部署的应用程序比较少,还没什么问题。当Spring Cloud项目逐步新增之后,问题就爆发了,服务器内存不够用了。而现有的用户体量也没必要对服务器再次进行升级,于是就开始着手Spring Boot启动时JVM内存配置的优化。
u 数据库的表空间大小,是否有表空间快满了,表空间增长是否过快(系统表空间是否增长过快)。
Yarn的内存参数设置之后一定要重启Yarn使之生效,否则Kylin提交的任务是会由于资源限制而无法执行;
原文https://blog.csdn.net/u010521062/article/details/115908166
服务器性能测试是一项非常重要而且必要的工作,本文是作者Micheal在对服务器进行性能测试的过程中不断摸索出来的一些实用策略,通过定位问题,分析原因以及解决问题,实现对服务器进行更有针对性的优化,提升服务器的性能。
jdk提供的这些工具都是使用java语言编写的,他们都来自于lib/tools.jar,解压tools.jar,然后找到它下面sun/tools,截图如下,可以很清楚的能够看到这些目录的名称和前面看到的工具的名称一致。
在实际的性能分析中,一个很常见的现象是,明明发生了性能瓶颈,但当你登录到服务器中想要排查的时候,却发现瓶颈已经消失了。或者说,性能问题总是时不时地发生,但却很难找出发生规律,也很难重现。
Docker监控的必要性在于确保容器化环境的稳定性、性能和安全性。以下是几个关键原因:
领取专属 10元无门槛券
手把手带您无忧上云