线上故障如何快速排查?

2025-06-19 18:50:11

前几天凌晨2点,我又被监控报警给吵醒了。

服务器CPU飙到90%,但是top看了半天也找不到罪魁祸首。

这种时候,就得请出我们运维人员的两大法宝了——strace和ftrace。

说实话,刚开始接触这两个工具的时候,我也是一脸懵逼。

什么系统调用、内核跟踪,听起来就很高大上的样子。

但是用多了你就会发现,这玩意儿简直就是排查问题的神器!今天就跟大家分享一下我这些年用下来的一些心得。

先说说系统调用这个东西你可能会问,系统调用到…。

线上故障如何快速排查?
广告位810*200
相关阅读
golang 与rust 在服务器程序领域相比较,各有什么优劣势?

golang 与rust 在服务器程序领域相比较,各有什么优劣势?

Rust 高级,可维护性高,Golang 低级,写出来东西快...

2025-06-25
能分享一下你写过的rust项目吗?

能分享一下你写过的rust项目吗?

实际工作中,2020年的时候用 Rust 在 ARM 设备上...

2025-06-25
怎么评价国内AI企业人肉背15块80TB硬盘,飞去马来西亚用英伟达训练数据,以规避美国禁令?

怎么评价国内AI企业人肉背15块80TB硬盘,飞去马来西亚用英伟达训练数据,以规避美国禁令?

都说了80T硬盘了,怎么还有人想着3.5寸机械的事,跟企业级...

2025-06-25
为什么都认为无GC语言一定会比有GC语言要快?

为什么都认为无GC语言一定会比有GC语言要快?

Go往往跟Rust持平甚至超越这个观点是错误的,GO的性能很...

2025-06-25
为什么《DOTA2》iceice 和 sccc 这类实力选手没队要?

为什么《DOTA2》iceice 和 sccc 这类实力选手没队要?

以前挺喜欢sccc的,直到这届老头杯。 。 。 真的是一言难...

2025-06-25