Linux系统故障的排查(一)

    作者:课课家教育更新于: 2016-11-11 14:09:29

      在平常使用的一些主流的操作系统中我们都会有类似的一些经历,就是系统在使用的一段时间里面,或多或少都会出现一些问题,这也就是导致了很多的系统故障的出现,在Windows系统中出现一些故障,相信你也会很快就可以去解决,因为你对系统是有足够的熟悉,那么在Linux系统中是否也是有比较好的熟悉度呢?本文将为大家带来的是linux系统中故障的一个排除。

      首先是要去了解一下当前服务器的主要资源包括:

      (1)CPU

      (2)RAM

      (3)磁盘IO

      (4)网络

      当你的系统出了问题怎么办呢,一半人都会去想通过重启来去解决解决,但是如果想成为高手的话,就得需要进行深入的研究,如果可以的话,登录系统上,应该有一些工具可以排查出到底是谁在操纵着。

      1、系统负载

      使用到的通常第一条命令是uptime:看到下图所示的一个显示:

    Linux系统故障的排查(一)_系统运维_Linux系统故障_Linux系统_课课家

      我们看到loadaverage后面3个数字2.03、20.17、15.09它们分别代表了1分钟、5分钟、15分钟内机器的平均负载。我们所了解的一个系统的平均负载等于处于运行或者不可打扰状态的进程平均数。可运行的进程要么正在使用CPU,要么就是正在等待使用的CPU;如果是说不可打扰状态的进程都在等待IO响应。

      如果是看到平均负载为1的单CPU系统,这就是意味着该CPU是处于恒定负载;如果单CPU系统平均负载为4,这也就是说明这个系统处于可承受能力的4倍,所有3/4的进程都在等待资源。需要了解清楚的是,当负载状态为1的单CPU系统与负载状态为4的四核CPU系统使用资源的量它是一样的。

      时间上的1分钟、5分钟、15分钟的平均负载,它是描述了相对时间内负载的平均值。从上面的一个例子中,可以看出服务器过去1分钟负载为2,但是在过去的5分钟却飙升到了20,而前15分钟的负载平均为15。这也就说明机器在过去15分钟处于高负载状态,并且是在5分钟前系统的负载又有增长,但是目前它已经是逐渐的减弱。

      再来看看一个例子:

    uptime显示

      在上面的例子中5分钟、15分钟的平均负载很低,但1分钟内平均负载很高,因此是可以是知道负载的飙升发生在最近。所以可以使用top命令来观察负载是持续上升还是下降,在下面的一个例子中是使用top命令来进行查询。

      平均负载多少是算高?

      平均负载的多少这也就取决于产生高负载的原因。明确负载是CPU密集型(等待CPU资源的一个进程)、RAM密集型(特别是是频繁使用的RAM被已入了交换区)还对IO密集型(抢夺磁盘或网络IO资源的进程)来说是非常重要的。

      一般来说的话CPU密集型的系统会比IO密集型的系统影响度更高,因为这样在这些系统上运行故障排查工具会有良好的响应时间。

      对于IO负载较高的IO密集型系统,通常登录这些系统就需要花费一段时间,因为磁盘IO在一些情况下面已经是处于一个饱和的状态。

      用尽RAM的系统通常与IO密集型的系统表现相同,因为一旦系统开始使用磁盘上的交换存储,它将会是消耗磁盘资源,导致进程逐渐变慢直到最后停止为止。

      2、使用top命令排查负载问题

      用户如果是要去排查高负载的问题,第一个工具是top,我们看到下图使用的是top命令来进行系统的一个排查。

    top命令的一个使用

      top命令的输出:

      第一行输出与uptime的输出一致,可以看出这台机器的负载并不是太大。

      us:表示的是运行非优雅的用户进程所占CPU时间的百分比

      sy:运行内核和内核进程所占CPU时间的一个百分比

      ni:表示优雅CPU时间

      id:代表了的空闲时间比。如果系统运行很慢,但是这个指标特别高,那么负载的原因不是高CPU负载。

      wa:表示的是等待执行IO操作所占的百分比,当解决运行缓慢的系统问题的时候,是一个非常有价值的指标,如果这个值很低,那么就能轻松排除磁盘或者网络IO问题。

      以上是本文给大家多带来的Linux系统故障的排查。主要是给大家讲解了基础的排查命令的使用,以及命令的含义是什么,在日后的一个Linux系统运维的教程中我们还将继续为大家进行讲解。

课课家教育

未登录

1