首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    成都核酸系统崩溃原因大猜想

    相信大家已经知道了,就是这边的核酸登记系统崩溃了。 这个事情随着人们的脚力逐渐耗尽,开始在网上逐渐蔓延,进而算是一个不大不小的公共事件。...首先大家确定是东软开发的这个核酸系统,并且是9月1日切换到这个新的核酸系统,至于为什么从老的省系统切换到新的东软的这个系统咱也搞不清楚。...前面我们已经对并发量做了评估是1万,然而nginx的底层是通过epoll、select这种nio来实现的,epoll这个就非常依赖文件句柄量,linux默认的文件句柄是1024。...数据库 我们猜想这个核酸系统用的就是mysql,并且极有可能是单库单表。...三番五次的卡顿和崩溃显然不像是网络原因,如果只出现一次那还有可能是带宽的原因。通信网络基础能力还是很强的,支撑了多少年了,你什么时候听说过双11因为网络而导致故障?很少。

    1K20

    Linux pstore 实现自动“抓捕”内核崩溃日志

    作者简介 廖威雄,就职于珠海全志科技股份有限公司,负责Linux IO全栈研发、性能优化、开源社区开发交流、Linux 内核开源社区pstore/blk,mtdpstore模块的作者、大客户存储技术支持...简介 pstore文件系统(是的,这是个文件系统)是Persistent Storage的缩写,最早在2010年由 Tony Luck 设计并合入Linux主分支,设计的初衷是在内核Panic/Oops...apanic应该是Android Panic的缩写吧,可以实现在内核崩溃时,把日志转存到mtd nand。...如果曾经触发过崩溃日志,在挂载点应该有类似这样的文件: # ll /sys/fs/pstore ......上例中,由于系统并没有实现同步更新系统时间,所以时间戳不合理。 展望未来 正如我前文说的,pstore在物联网设备逐渐普及的现在,能发挥很大的作用,例如智能音箱和扫地机已经用起来了。

    5.7K63

    linux内核崩溃问题排查过程总结

    1.概述 某年某月某日某项目的线上分布式文件系统服务器多台Linux系统kernel崩溃,严重影响了某项目对外提供服务的能力,在公司造成了不小影响。...通过排查线上问题基本确定了是由于linux内核panic造成的原因,通过两个阶段的问题排查,基本上确定了linux内核panic的原因。...因为出错的服务器都安装了分布式文件系统,大家就怀疑是由于分布式文件系统导致了内核panic,但是通过观察业务监控信息发现那个时段分布式文件系统没有什么特殊的信息,而且数据流也不是很大。...不过我还是使用几台虚拟机安装了分布式文件系统,并且写了一个Java程序并且不断的通过分布式文件系统客户端写入文件到分布式文件系统集群,同时也把邮件发送程序启动,尽量模拟线上的环境,跑了很多次很长时间也没有出现线上的现象...首先他们的共同点就是出现了trace子系统打印的警告信息“Delta way too big!…..”的信息,但是根据相关信息,这个是不会导致linux系统挂起的。

    4.7K40

    系统崩溃分析 - vmcore 加载到 Trace32

    crash 是 Linux 内核开发中流行的调试工具。特别是它提供了强大的使用搜索命令进行内存搜索的功能。但是,它有点不方便,因为在移动每个进程的调用堆栈时没有查看局部变量的功能。.../crash64 vmcore vmlinux”运行崩溃实用程序。 $./crash64 vmcore vmlinux ...... please wait... ... ffffff8008bc4000] CPU: 0 STATE: TASK_RUNNING (ACTIVE) 查看第一条消息,命令 “echo /proc/sysrq-trigger” 导致了强制内核崩溃...首先,使用以下命令初始化系统。 sys.cpu cortexa53 sys.u 将以下 stack_dump.bin 转储加载到 T32。...崩溃实用程序提取了 0xffffffc87bbd8000 内存地址转储,因此 T32 上的 0xffffffc87bbd8000 给出了地址偏移量。

    1.4K20

    linux服务器显卡崩溃解决方案

    一般就是显卡驱动崩了的原因,所以我们可以首先检查显卡驱动是否有问题 nvidia -smi 如果出现说驱动链接不上什么的问题,就是说明你的显卡驱动出现了问题 主要采用以下的处理方法 一、进入ubuntu系统...,我的是1080,所以说我选择的是是NVIDIA-Linux-x86_64-384.130.run 下载完了将其保存在优盘中,这个过程要在有图形界面的电脑上完成 三、禁止集成的nouveau驱动 Ubuntu...系统集成的显卡驱动程序是nouveau,它是第三方为NVIDIA开发的开源驱动,我们需要先将其屏蔽才能安装NVIDIA官方驱动。...mnt/usb命令进入该目录里 若之前安装过显卡驱动,需要先卸载掉 sudo apt-get --purge remove nvidia-* 安装指令如下 sudo chmod a+x NVIDIA-Linux-x86.../NVIDIA-Linux-x86_64-384.130.run -no-x-check -no-nouveau-check -no-opengl-files 4.3 卸载优盘 sudo umount

    4.3K21

    Linux: 深入探讨KDUMP,内核崩溃调试利器

    KDUMP是Linux内核中的一项关键功能,用于在系统崩溃时生成内存转储(core dump)。这对于系统管理员和开发人员来说,分析和调试系统崩溃问题至关重要。...KDUMP的主要步骤如下: 预配置崩溃内核(crash kernel):在系统正常运行时,预先分配一部分内存用于崩溃内核。...系统崩溃时切换内核:当主内核发生崩溃时,通过kexec机制加载并启动预先配置的崩溃内核。...六、结论 KDUMP是Linux系统中一个强大而实用的工具,对于提高系统稳定性和故障排除能力具有重要意义。...通过正确配置和使用KDUMP,系统管理员和开发人员可以有效地捕获和分析内核崩溃信息,从而快速解决系统问题,确保系统的高可用性和可靠性。

    74020

    iOS 崩溃排查技巧:如何获取系统库源码

    作者:酷酷的哀殿 APP 崩溃会导致用户体验下降,严重时甚至会导致用户卸载 APP。我希望从实际问题中去分享一些我日常工作上的小技巧,希望可以帮助到大家。...今天要分享的是「如何获取系统库源码」,问题源自于一位朋友遇到了一个系统库相关的 crash,一直无法定位到具体原因,所以想了解一下「如何根据 iOS 崩溃日志获取对应系统库源码」,正好我之前也遇到过类似的问题...如下,我们从官方文档 Examining the Fields in a Crash Report 的截取部分标准的崩溃日志进行讲解。...所以,我们只能下载到 syslog-377.40.1.tar.gz 总结 本文分享了两种特殊的技巧定位崩溃日志对应的源码。 如果有读者发现了其它方案,欢迎加入我们的微信群,一起参与讨论。...优点 缺点 系统版本号 简单,无需对应的符号文件 * 无法无法准确定位对应源码工程名问题* 存在无法准确定位源码版本问题 系统编译版本号 * 无法无法准确定位对应源码工程名问题* 存在无法准确定位源码版本问题

    1.4K10

    记一次重装驱动导致系统引导崩溃

    系统引导 昨晚那次强制重启后,马上就出现了重启硬盘不识别,报错 0xc000000e 代码,无法正常引导系统,需要储存介质修复。...当时我进bios看了下发现启动顺序没有了系统盘,但启动设备里又还在,然后当时我就以为是系统引导出错了,然后直接在启动设备中选择系统盘进行启动,奇葩的是,成功进入系统了,只是每次重启都需要手动指定启动设备...唯一让我欣慰的是至少系统恢复了,不然简直让人抓狂!!...首先把除系统盘的其他硬盘全部拔掉,然后进pe对系统盘进行扇区扫描一次(扫扇区是因为这期间在pe中访问系统盘明显变得异常缓慢,同时还可以尝试修复系统引导),之后把win10安装盘插到电脑后正常启动电脑(无需...这个电脑里有我好几年的东西,我是不能也不会重装系统的,就因为个破游戏,差点系统都干掉了,真是无语无语!!

    14110

    成都、贵州核酸检测系统崩溃”背后的技术原因

    顶象业务安全专家认为,核酸检测系统崩溃的技术原因很多,网络带宽、云服务稳定性和资源扩展性、应用系设计、数据库性能以及运维能力都可能影响系统服务。“用户最能直观感受到的一个服务节点。...核酸检测系统的加载过程成都、贵州等地核酸检测系统频陷崩溃,背后的技术原因会有多种可能。因为应用系统上线运行后,影响系统性能的环节会非常的多。...核酸检测系统崩溃”的技术原因分析上面提到的四个流程环节都涉及性能优化,每个环节的快与慢都可能影响到用户的直接体验。核酸检测应用系统出现访问慢、崩溃等情况,可以在以下几方面查找原因。1、网络带宽。...5、运维系统和能力。运维在应用系统的生命周期中会占到70%以上的时间,高质量的运维系统和服务,能保障应用系统的性能和稳定性。...以顶象风控系统(实时决策引擎)为例,看下顶象风控系统在设计和实施时,对系统性能和稳定性上的能力要求(PS:顶象风控系统在性能和稳定性上,支持TPS>5w的集群部署,平均rt<100ms,采用分布式集群部署

    71830

    美团一面:为什么线程崩溃崩溃不会导致 JVM 崩溃

    ,那么进程肯定会崩溃,为什么系统要让进程崩溃呢,这主要是因为在进程中,各个线程的地址空间是共享的,既然是共享,那么某个线程对地址的非法访问就会导致内存的不确定性,进而可能会影响到其他线程,这种操作是危险的...,操作系统会认为这很可能导致一系列严重的后果,于是干脆让整个进程崩溃 线程共享代码段,数据段,地址空间,文件 非法访问内存有以下几种情况,我们以 C 语言举例来看看 针对只读内存写入数据 // 向只读内存写入数据...当然了发 kill 信号必须具有一定的权限,否则任意进程都可以通过发信号来终止其他进程,那显然是不合理的,实际上 kill 执行的是系统调用,将控制权转移给了内核(操作系统),由内核来给指定的进程发送信号...其背后的机制如下 CPU 执行正常的进程指令 调用 kill 系统调用向进程发送信号 进程收到操作系统发的信号,CPU 暂停当前程序运行,并将控制权转交给操作系统 调用 kill 系统调用向进程发送信号...正常情况下,操作系统为了保证系统安全,所以针对非法内存访问会发送一个 SIGSEGV 信号,而操作系统一般会调用默认的信号处理函数(一般会让相关的进程崩溃),但如果进程觉得"罪不致死",那么它也可以选择自定义一个信号处理函数

    2.1K20

    你真了解你的系统吗?它要崩溃

    系统 系统性能指标主要是针对我们的应用的整体情况,主要包括:RT(请求响应时间)、QPS、TPS、吞吐量等 中间件 中间件主要包括我们的依赖的虚拟机、外部系统或框架,可能包括:JVM、DB、Redis等...资源 资源就是我们系统依赖的容器、虚拟机或物理机上的三大马车:CPU、IO、MEMORY 稳定性 稳定性主要包括我们系统的SLA、宕机恢复时间等 可扩展性 可扩展性主要关注系统是否是可以线性扩展的 你对你的系统了如指掌吗...我需要了解什么 定义自己系统的可用指标 在什么指标下,我的系统是可用的 最基础的一点是,我们最少需要知道在什么样的指标下,我的系统是可用的(可正常对外提供服务) 举个栗子,当我的系统满足以下指标时,它才是可用的...我们只有知道了系统的可用极限,才能够在需要扩容的时候做到心中有数,合理的扩缩容。 系统配置 在可用性指标下,实现最大的承载,我的相关配置是什么?...,和我们应该了解我们系统的哪些方面,只有在对系统已经十分了解的情况下。

    46430

    Linux系统|Linux系统应急响应

    目录 排查用户相关的信息 排查进程端口相关的信息 查找恶意程序并杀掉 斩草除根 判断入侵方式,修复漏洞 当我们被告知一台Linux服务器被黑客入侵,黑客利用该服务器进行挖矿...w #显示已经登陆系统的用户列表,并显示用户正在执行的指令 users #显示当前登录系统的所有用户的用户列表 last #查看最近登录成功的用户及信息...,查看的是 /var/log/wtmp 文件 lastb #查看最近登录失败的用户及信息,查看的是 /var/log/btmp 文件 lastlog #显示系统中所有用户最近一次登录信息...#查看爆破用户名字典 总的来说,黑客入侵主机有下列几种情况: 通过 redis 未授权漏洞入侵(好多挖矿程序是通过这个) ssh 弱口令暴力破解 Web 程序漏洞入侵 参考文章: 记一次Linux...木马清除过程 相关文章:Redis未授权访问漏洞 Linux挖矿病毒的清除与分析 Linux下性能监控、守护进程与计划任务管理 来源:

    9.5K20

    做一个不崩溃的核酸系统有多难?

    然后,系统启动过程是: 1、从数据库载入属于本服务器的所有信息(2~4亿条),这是个较为缓慢的过程。 2、开始提供服务。...那么,这里实际上不太需要考虑什么C10k问题(考虑也容易,Windows用完成端口Linux用epoll即可;其实可以直接用libevent写出跨平台程序的),一条100M的链路足够了。...万一虚拟机本身不够稳定、或者有人连二分查找程序都能写崩溃呢…… 这时候,我们可以另外搞一些虚拟机作为备份;这些虚拟机可以使用现成的zookeeper管理,一个节点坏了,另一个节点可以马上顶上…… 另外就是数据更新问题...但是呢,我曾经在类似的公司做过事,也知道对接的甲方的水平…… 所以,这样一个“庞大”“复杂”“史无前例”的系统,最终如果按我的设计,顶天两三千行C代码以及两三千行js代码就交差了——你猜甲方会不会掏钱?

    86210
    领券