检视多核 CPU 命令
mpstat -P ALL 和 sar -P ALL
说明:sar -P ALL > aaa.txt 重定向输出内容到档案 aaa.txt
top 命令
经常用来监控 linux 的系统状况,比如 cpu 、内存的使用,程式设计师基本都知道这个命令,但比较奇怪的是能用好它的人却很少,例如 top 监控检视中内存数值的含义就有不少的曲解。
本文通过一个执行中的 WEB 站群服务器的 top 监控截图,讲述 top 检视中的各种资料的含义,还包括检视中各程序(任务)的栏位的排序。
top 进入检视
第一行:
10:08:45 — 当前系统时间
10 days, 3:05 — 系统已经执行了 10 天 3 小时 5 分钟(在这期间没有重启过)
1 users — 当前有 1 个使用者登入系统
load average: 0.00, 0.00, 0.00 — load average 后面的三个数分别是 1 分钟、 5 分钟、 15 分钟的负载情况。
load average 资料是每隔 5 秒钟检查一次活跃的程序数,然后按特定演算法计算出的数值。如果这个数除以逻辑 CPU 的数量,结果高于 5 的时候就表明系统在超负荷运转了。
第二行:
Tasks — 任务(程序),系统现在共有 135 个程序,其中处于执行中的有 1 个,134 个在休眠(sleep),stoped 状态的有 0 个,zombie 状态(僵尸)的有 0 个。
第三行:cpu 状态
0.3% us — 使用者空间占用 CPU 的百分比。
0.0% sy — 核心空间占用 CPU 的百分比。
0.0% ni — 改变过优先顺序的程序占用 CPU 的百分比
99.7% id — 空闲 CPU 百分比
0.0% wa — IO 等待占用 CPU 的百分比
0.0% hi — 硬中断(Hardware IRQ)占用 CPU 的百分比
0.0% si — 软中断(Software Interrupts)占用 CPU 的百分比
在这里 CPU 的使用比率和 windows 概念不同,如果你不理解使用者空间和核心空间,需要充充电了。
第四行:内存状态
3808060k total — 实体内存总量(4GB)
3660048k used — 使用中的内存总量(3.6GB)
148012k free — 空闲内存总量(148M)
359760k buffers — WordPress 加速缓存的内存量 (359M)
第五行:swap 交换分割槽
4184924k total — 交换区总量(4G)
0k used — 使用的交换区总量(0M)
4184924k free — 空闲交换区总量(4G)
2483956k cached — 缓冲的交换区总量(2483M)
第四行中使用中的内存总量(used)指的是现在系统核心控制的内存数,空闲内存总量(free)是核心还未纳入其管控范围的数量。纳入核心管理的内存不见得都在使用中,还包括过去使用过的现在可以被重复利用的内存,核心并不把这些可被重新使用的内存交还到 free 中去,因此在 linux 上 free 内存会越来越少,但不用为此担心。
如果出于习惯去计算可用内存数,这里有个近似的计算公式:第四行的 free + 第四行的 buffers + 第五行的 cached,按这个公式此台站群服务器的可用内存:148M+259M+2483M = 2990M 。
对于内存监控,在 top 里我们要时刻监控第五行 swap 交换分割槽的 used,如果这个数值在不断的变化,说明核心在不断进行内存和 swap 的资料交换,这是真正的内存不够用了。
第六行是空行
第七行以下:各程序(任务)的状态监控
PID — 程序 id
USER — 程序所有者
PR — 程序优先顺序
NI — nice 值。负值表示高优先顺序,正值表示低优先顺序
VIRT — 程序使用的虚拟内存总量,单位 kb 。 VIRT=SWAP+RES
RES — 程序使用的、未被换出的实体内存大小,单位 kb 。 RES=CODE+DATA
SHR — 共享内存大小,单位 kb
S — 程序状态。 D=不可中断的睡眠状态 R=执行 S=睡眠 T=跟踪/停止 Z=僵尸程序
%CPU — 上次更新到现在的 CPU 时间占用百分比
%MEM — 程序使用的实体内存百分比
TIME+ — 程序使用的 CPU 时间总计,单位 1/100 秒
COMMAND — 程序名称(命令名/命令列)
多 U 多核 CPU 监控
在 top 基本检视中,按键盘数字 “1”,可监控每个逻辑 CPU 的状况:
观察上图,站群服务器有 4 个逻辑 CPU,实际上是 1 个物理 CPU 。
如果不按 1,则在 top 检视里面显示的是所有 cpu 的平均值。
程序栏位排序
预设进入 top 时,各程序是按照 CPU 的占用量来排序的,在【top 检视 01】中程序 ID 为 14210 的 java 程序排在第一(cpu 占用 100%),程序 ID 为 14183 的 java 程序排在第二(cpu 占用 12%)。可通过键盘指令来改变排序栏位,比如想监控哪个程序占用 MEM 最多,我一般的使用方法如下:
1. 敲击键盘 “b”(开启/关闭加亮效果),top 的检视变化如下:
我们发现程序 id 为 12363 的 “top” 程序被加亮了,top 程序就是检视第二行显示的唯一的执行态(runing)的那个程序,可以通过敲击 “y” 键关闭或开启执行态程序的加亮效果。
2. 敲击键盘 “x”(开启/关闭排序列的加亮效果),top 的检视变化如下:
可以看到,top 预设的排序列是 “%CPU” 。
3. 通过”shift + >” 或”shift + <”可以向右或左改变排序列,下图是按一次”shift + >” 的效果图:
检视现在已经按照%MEM 来排序了。
改变程序显示栏位
1. 敲击 “f” 键,top 进入另一个检视,在这里可以编排基本检视中的显示栏位:
这里列出了所有可在 top 基本检视中显示的程序栏位,有”*” 并且标注为大写字母的栏位是可显示的,没有”*” 并且是小写字母的栏位是不显示的。如果要在基本检视中显示 “CODE” 和 “DATA” 两个栏位,可以通过敲击 “r” 和 “s” 键:
2. “回车” 返回基本检视,可以看到多了 “CODE” 和 “DATA” 两个栏位:
top 命令的补充
top 命令是 Linux 上进行系统监控的首选命令,但有时候却达不到我们的要求,比如当前这台站群服务器,top 监控有很大的局限性。这台站群服务器执行著 websphere 丛集,有两个节点服务,就是【top 检视 01】中的老大、老二两个 java 程序,top 命令的监控最小单位是程序,所以看不到我关心的 java 执行绪数和客户连线数,而这两个指标是 java 的 web 服务非常重要的指标,通常我用 ps 和 netstate 两个命令来补充 top 的不足。
监控 java 执行绪数:
ps -eLf | grep java | wc -l
监控互联网客户连线数:
netstat -n | grep tcp | grep 侦听埠 | wc -l
上面两个命令,可改动 grep 的引数,来达到更细致的监控要求。
在 Linux 系统 “一切都是档案” 的思想贯彻指导下,所有程序的执行状态都可以用档案来获取。系统根目录/proc 中,每一个数字子目录的名字都是执行中的程序的 PID,进入任一个程序目录,可通过其中档案或目录来观察程序的各项执行指标,例如 task 目录就是用来描述程序中执行绪的,因此也可以通过下面的方法获取某程序中执行中的执行绪数量(PID 指的是程序 ID):
ls /proc/PID/task | wc -l
在 linux 中还有一个命令 pmap,来输出程序内存的状况,可以用来分析执行绪堆叠:
pmap PID
大家都熟悉 Linux 下可以通过 top 命令来检视所有程序的内存,CPU 等资讯。除此之外,还有其他一些命令,可以得到更详细的资讯,例如程序相关
cat /proc/your_PID/status
通过 top 或 ps -ef | grep ‘程序名’ 得到程序的 PID 。该命令可以提供程序状态、档案控制代码数、内存使用情况等资讯。
内存相关
vmstat -s -S M
该可以检视包含内存每个专案的报告,通过-S M 或-S k 可以指定检视的单位,预设为 kb 。结合 watch 命令就可以看到动态变化的报告了。
也可用 cat /proc/meminfo
要看 cpu 的配置资讯可用
cat /proc/cpuinfo
它能显示诸如 CPU 核心数,时脉频率、 CPU 型号等资讯。
要检视 cpu 波动情况的,尤其是多核机器上,可使用
mpstat -P ALL 10
该命令可间隔 10 秒钟取样一次 CPU 的使用情况,每个核的情况都会显示出来,例如,每个核的 idle 情况等。
只需检视均值的,可用
iostat -c
IO 相关
iostat -P ALL
该命令可检视所有装置使用率、读写位元组数等资讯。
另外,htop ,有时间可以用一下。
Linux 检视物理 CPU 个数、核数、逻辑 CPU 个数
# 总核数 = 物理 CPU 个数 X 每颗物理 CPU 的核数
# 总逻辑 CPU 数 = 物理 CPU 个数 X 每颗物理 CPU 的核数 X 超执行绪数
# 检视物理 CPU 个数
cat /proc/cpuinfo| grep “physical id”| sort| uniq| wc -l
# 检视每个物理 CPU 中 core 的个数 (即核数)
cat /proc/cpuinfo| grep “cpu cores”| uniq
# 检视逻辑 CPU 的个数
cat /proc/cpuinfo| grep “processor”| wc -l
检视 CPU 资讯(型号)
cat /proc/cpuinfo | grep name | cut -f2 -d: | uniq -c