189 8069 5689

常用监控命令总结

很早就想写一下,但最近太忙了,还要准备下CET-4悲催的日子...哈哈...

创新互联公司长期为近1000家客户提供的网站建设服务,团队从业经验10年,关注不同地域、不同群体,并针对不同对象提供差异化的产品和服务;打造开放共赢平台,与合作伙伴共同营造健康的互联网生态环境。为黔江企业提供专业的网站建设、成都做网站黔江网站改版等技术服务。拥有10多年丰富建站经验和众多成功案例,为您定制开发。

先写点,慢慢写吧...

一:

A:ps -l 查看属于自己这次登录的PID与相关信息列出来(只与自己的bash有关)

 

常用监控命令总结

F:代表这个进程标志(process flags),说明这个进程的权限,常见号码有:

       1,若为4表示此进程的权限为root;

       2,若为1则表示此子进程仅可进行复制(fork)而无法执行(exec);

S:代表这个进程的状态(STAT),主要的状态有:

       R(Running):该进程正在运行中;

       S(Sleep):该进程目前正在睡眠状态(idle),但可以被唤醒(signal);

       D:不可被唤醒的状态,通常这个进程可能在等待I/O的情况(ex>打印);

       T:停止状态(stop),可能是在工作控制(后台暂停)或出错(traced)状态;

       Z(Zombie):“僵尸”状态,该进程已经终止但却无法被删除至内存外。

UID/PID/PPID:代表此进程被该UID所拥有的/进程的PID号码/此进程的父进程PID号码。

C:代表CPU使用率,单位为百分比。

PRI/IN:Priority/Nice的缩写,代表此进程被CPU所执行的优先级,数值越小代表此进程越快被CPU执行。

ADDR/SZ/WCHAN:都与内存有关,ADDR是kernel function,指出该进程在内存的哪个部分,如果是个running的进程,一般会显示“—”。SZ代表此进程用掉多少内存。WCHAN表示目前进程是否在运行中,同样,若为“—”表示正在运行中。

TTY:登录者的终端位置,若为远程登录使用动态终端接口(pts/n)。

TIME:使用CPU的时间,注意,是此进程实际花费CPU运行的时间,而不是系统时间。

CMD:就是command的缩写,造成此程序的触发进程的命令为何。

 

 

   B:    ps aux  查看系统所有进程数据(静态)

常用监控命令总结 

USER:该进程属于哪个用户账号的;

PID:该进程的进程标识符;

%CPU:该进程使用掉的CPU资源百分比;

%MEM:该进程所占用的物理内存百分比;

VSZ:该进程所占用的虚拟内存量(KB);

RSS:该进程所占用的固定的内存量(KB);

TTY:该进程在哪个终端机上面运行,若与终端机无关则显示?另外,tty1~tty6是本机上面的登录者程序,若为pts/0等的,则表示为由网络连接进主机的进程;

STAT:该进程目前的状态,状态显示与ps -l的S标识相同(R/S/T/Z);

TIME:该进程实际使用CPU的时间;

COMMAND:该进程的实际命令。

二:top (动态)

 

常用监控命令总结

 

 统计信息区前五行是系统整体的统计信息。


 第一行是任务队列信息,同 uptime 命令的执行结果。其内容如下:
 02:44:02                    当前时间
 up 21 days  ,2:12           开机到目前为止所经过的时间
 3 users                     当前登录用户数
 0.56, 0.23, 0.32            系统负载,即任务队列的平均长度。三个数值分别为1分钟、5分钟、15分钟前到现在的平均值。


 第二行为进程信息,内容如下:
 Tasks:  113 total       进程总数
 1 running               正在运行的进程数
 112sleeping             睡眠的进程数
 0 stopped               停止的进程数
 0 zombie                僵尸进程数


 第三行为CPU信息,当有多个CPU时,这些内容可能会超过两行。内容如下:
 Cpu(s): 0.0%us                   用户空间占用CPU百分比
 0.0% sy                          内核空间占用CPU百分比
 0.0% ni                          用户进程空间内改变过优先级的进程占用CPU百分比
 0.0% id                          空闲CPU百分比
 0.0% wa                          等待输入输出(IO)的CPU时间百分比
 0.0% hi                          cpu处理硬件中断的时间;
 0.0% si                          cpu处理软中断的时间;

 0.0% st                       在虚拟环境下,处理其他作业系统占用的 cpu 时间


 第四行为内存信息,内容如下:
 Mem: 1034872k total          物理内存总量
 974264k used                 使用的物理内存总量
 60608k free                  空闲内存总量
 226140k buffers              用作内核缓存的内存量


 第五行为SWAP信息
 Swap: 1534072k total      交换区总量
 0used                     使用的虚拟内存总量
 1534072k free             空闲交换区总量
 548268k cached            缓冲的交换区总量。


 第六行往后是进程列表,常见的这几列的意义分别为:
 PID(进程号), USER(运行用户),PR(优先级),NI(任务nice值),VIRT(虚拟内存用量),RES(物理内存用量), SHR(共享内存用量),S(进程状态),%CPU(CPU占用比),%MEM(内存占用比),TIME+(累计CPU占用时间)。


 除了这些信息之外,top还提供了很多命令能帮我们更好的解读这些信息,例如按”M”键可以按内存用量进行排序;


 按”P”可以按CPU使用量进行排序,这样一来对于分析系统瓶颈很有帮助;此外,按“f”可以进入交互页面,选择指定的列显示;

”r”可以改变一个进程的nice值;”k”可以向一个进程发信号; 


 ”z”可以使用彩色显示。进程信息区统计信息区域的下方显示了各个进程的详细信息。

首先来认识一下各列的含义。
 序号    列名    含义
 a    PID       进程id
 b    PPID      父进程id
 c    RUSER     Real user name
 d    UID       进程所有者的用户id
 e    USER      进程所有者的用户名
 f    GROUP     进程所有者的组名
 g    TTY       启动进程的终端名。不是从终端启动的进程则显示为 ?
 h    PR        优先级
 i    NI        nice值。负值表示高优先级,正值表示低优先级
 j    P         最后使用的CPU,仅在多CPU环境下有意义
 k    %CPU     上次更新到现在的CPU时间占用百分比
 l    TIME     进程使用的CPU时间总计,单位秒
 m    TIME+    进程使用的CPU时间总计,单位1/100秒
 n    %MEM     进程使用的物理内存百分比
 o    VIRT     进程使用的虚拟内存总量,单位kb。VIRT=SWAP+RES
 p    SWAP     进程使用的虚拟内存中,被换出的大小,单位kb。
 q    RES      进程使用的、未被换出的物理内存大小,单位kb。RES=CODE+DATA
 r    CODE     可执行代码占用的物理内存大小,单位kb
 s    DATA     可执行代码以外的部分(数据段+栈)占用的物理内存大小,单位kb
 t    SHR      共享内存大小,单位kb
 u    nFLT     页面错误次数
 v    nDRT     最后一次写入到现在,被修改过的页面数。
 w    S        进程状态。
 x    COMMAND  命令名/命令行
 y    WCHAN    若该进程在睡眠,则显示睡眠中的系统函数名
 z    Flags    任务标志,参考 sched.h
             D=不可中断的睡眠状态
             R=运行
             S=睡眠
             T=跟踪/停止
             Z=僵尸进程
 
 默认情况下仅显示比较重要的  PID、USER、PR、NI、VIRT、RES、SHR、S、%  CPU、%MEM、TIME+、COMMAND  列。可以通过下面的快捷键来更改显示内容。
 更改显示内容通过 f 键可以选择显示的内容。按 f 键之后会显示列的列表,按 a-z  即可显示或隐藏对应的列,最后按回车键确定。 

三:last 列出目前与过去登入系统的用户相关信息。

参  数:
  - R: 省略 hostname 的栏位

       -n:指定输出记录的条数。

       -f file:指定用文件file作为查询用的log文件。

       -t tty:只显示指定的虚拟控制台上登录情况。

       -h 节点:只显示指定的节点上的登录情况。

       -i IP:只显示指定的IP上登录的情况。

       -1:用IP来显示远端地址。

       -y:显示记录的年、月、日。

       -ID:知道查询的用户名。

       -x:显示系统关闭、用户登录和退出的历史。

补充说明:单独执行last指令,它会读取/var/log/wtmp,并把该给文件的内容记录的登入系统的用户名单全部显示出来。

last用了显示用户登录情况,以下是直接显示固定行数的记录

常用监控命令总结

 

四:free

 

常用监控命令总结

free -m    大小以M来显示

 

常用监控命令总结

 

说明:


 第1行 :
 total 内存总数: 1034872
 used 已经使用的内存数: 973820
 free 空闲的内存数: 161502
 shared 当前已经废弃不用,总是0
 buffers 内存数: 226260
 cached 内存数:  548892


 第2行:
 -/+ buffers/cache的意思相当于:
 -buffers/cache 的内存数:198668 (等于第1行的 used - buffers - cached)
 +buffers/cache 的内存数: 836204(等于第1行的 free + buffers + cached) 


 第3行:
 total 交换分区总数: 1534072
 used 已经使用的: 0
 free 空闲的数: 1534072

五:Linux iostat监测IO状态

1,iostat  无参数

 

常用监控命令总结 

以上显示分为上下两个部 分,上半部分显示CPU的信息,下面的数 据 显示存储设备的相关数据,它的数据意义如下:
tps:平均每秒钟的传送次数,与数据传输“次数”相关,非容 量
kB_read/s:启动到现在的平均读取单位
kB_wrtn/s:启动到现在的平均写入单位
kB_read:启动到现在总共 读出来的文件 单位
kB_wrtn: 启动到现在总共写入的文件单位

2,iostat -d -k 1 2    

参数 -d 表示,显示设备(磁盘)使用状态;-k某些使用block为单位的列强制使用Kilobytes为单位;1 2表示,数据显示每隔1秒刷新一次,共显

示10次。

 

常用监控命令总结

tps:该设备每秒的传输次数(Indicate the number of transfers per second that were issued to the device.)。“一次传输”意思是“一

次I/O请求”。多个逻辑请求可能会被合并为“一次I/O请求”。“一次传输”请求的大小是未知的。

kB_read/s:每秒从设备(drive expressed)读取的数据量;kB_wrtn/s:每秒向设备(drive expressed)写入的数据量;kB_read:读取的总数据

量;kB_wrtn:写入 的总数量数据量;这些单位都为Kilobytes。

上面的例子中,我们可以看到磁盘sda以及它的各个分区的统计数据,当时统计的磁盘总TPS是39.29,下面是各个分区的TPS。(因为是瞬间 值,所

以总TPS并不严格等于各个分区TPS的总和)

3,-x 参数

使用-x参数我们可以获得更多统计信息。
 

常用监控命令总结

rrqm/s:每秒这个设备相关的读取请求有多少被Merge了(当系统调用需要读取数据的 时候,VFS将请求发到各个FS,如果FS发现不同的读取请求读

取的是相同Block的数据,FS会将这个请求合并Merge);wrqm/s:每秒这个 设备相关的写入请求有多少被Merge了。

rsec/s:每秒读取的扇区数;wsec/: 每秒写入的扇区数。r/s:The number of read requests that were issued to the device per second;

w/s:The number of write requests that were issued to the device per second;

await:每一个IO请求的处理的平均时间(单位是微秒)。这里可以理解为IO的响应时 间,一般地系统IO响应时间应该低于5ms,如果大于10ms就比

较大了。

%util:在统计时间内所有处理IO时间,除以总共统计时间。例如,如果统计间隔1秒,该 设备有0.8秒在处理IO,而0.2秒闲置,那么该设备的%

util = 0.8/1 = 80%,所以该参数暗示了设备的繁忙程度。一般地,如果该参数是100%表示设备已经接近满负荷运行了(当然如果是多磁盘,即

使%util是100%,因 为磁盘的并发能力,所以磁盘使用未必就到了瓶颈)。
 

4,-c 参数

iostat还可以用来获取cpu部分状态值:

 

常用监控命令总结

5,常见用法


iostat -d -k 1 10          #查看TPS和吞吐量信息
iostat -d -x -k 1 10      #查看设备使用率(%util)、响应时间(await)
iostat -c 1 10               #查看cpu状态

 

第六:vmstat

 

常用监控命令总结

rocs
 r 列表示运行和等待cpu时间片的进程数,如果长期大于1,说明cpu不足,需要增加cpu。
 b 列表示在等待资源的进程数,比如正在等待I/O、或者内存交换等。

memory
 swpd 切换到内存交换区的内存数量(k表示)。如果swpd的值不为0,或者比较大,比如超过了100m,只要si、so的值长期为0,系统性能还是正常
 free 当前的空闲页面列表中内存数量(k表示)
 buff 作为buffer cache的内存数量,一般对块设备的读写才需要缓冲。
 cache: 作为page cache的内存数量,一般作为文件系统的cache,如果cache较大,说明用到cache的文件较多,如果此时IO中bi比较小,说明文件系统效率比较好。

swap
 si 由内存进入内存交换区数量。
 so由内存交换区进入内存数量。

IO
 bi 从块设备读入数据的总量(读磁盘)(每秒kb)。
 bo 块设备写入数据的总量(写磁盘)(每秒kb)
 这里我们设置的bi+bo参考值为1000,如果超过1000,而且wa值较大应该考虑均衡磁盘负载,可以结合iostat输出来分析。

system 显示采集间隔内发生的中断数
 in 列表示在某一时间间隔中观测到的每秒设备中断数。
 cs列表示每秒产生的上下文切换次数,如当 cs 比磁盘 I/O 和网络信息包速率高得多,都应进行进一步调查。

cpu 表示cpu的使用状态
 us 列显示了用户方式下所花费 CPU 时间的百分比。us的值比较高时,说明用户进程消耗的cpu时间多,但是如果长期大于50%,需要考虑优化用户的程序。
 sy 列显示了内核进程所花费的cpu时间的百分比。这里us + sy的参考值为80%,如果us+sy 大于 80%说明可能存在CPU不足。
 wa 列显示了IO等待所占用的CPU时间的百分比。这里wa的参考值为30%,如果wa超过30%,说明IO等待严重,这可能是磁盘大量随机访问造成的,也可能磁盘或者磁盘访问控制器的带宽瓶颈造成的(主要

是块操作)。
 id 列显示了cpu处在空闲状态的时间百分比
 st 在虚拟环境下,处理其他作业系统占用的 cpu 时间

第七:mpstat

 

常用监控命令总结


 %user 在internal时间段里,用户态的CPU时间(%),不包含 nice值为负 进程 (usr/total)*100  
 %nice 在internal时间段里,nice值为负进程的CPU时间(%)   (nice/total)*100  
 %sys  在internal时间段里,核心时间(%)   (system/total)*100
 %iowait 在internal时间段里,硬盘IO等待时间(%) (iowait/total)*100
 %irq 在internal时间段里,硬中断时间(%)      (irq/total)*100
 %soft 在internal时间段里,软中断时间(%)    (softirq/total)*100
 %steal在虚拟环境下,处理其他作业系统占用的 cpu 时间
 %idle 在internal时间段里,CPU除去等待磁盘IO操作外的因为任何原因而空闲的时间闲置时间(%)(idle/total)*100
 %intr/s 在internal时间段里,每秒CPU接收的中断的次数intr/total)*100


新闻名称:常用监控命令总结
标题网址:http://cdxtjz.cn/article/ggsicg.html

其他资讯