作為一個系統管理員/SRE 工作 5 年後,我知道當我連線到一台 Linux 站羣服務器時我首先應該做什麼。這裏有一系列關於站羣服務器你必須瞭解的資訊,以便你可以 (在大部分時間裏) 更好的除錯該站羣服務器。

連上 Linux 站羣服務器的第一分鐘
這些命令對於有經驗的站羣軟件工程師來説都非常熟悉,但我意識到對於一個剛開始接觸 Linux 系統的初學者來説,例如我在 Holberton 學校任教的學生,卻並非如此。這也是我為什麼決定分享當我連上 Linux 站羣服務器首先要執行的前 5 個命令的原因。

w
history
top
df
netstat

這 5 個命令在任何一個 Linux 發行版中都有,因此不需要額外的安裝步驟你就可以直接使用它們。
w:

[ubuntu@ip-172-31-48-251 ~]$ w
23:40:25 up 273 days, 20:52,  2 users,  load average: 0.33, 0.14, 0.12
USER     TTY      FROM              LOGIN@   IDLE   JCPU   PCPU WHAT
ubuntu pts/0    104-7-14-91.ligh 23:39    0.00s  0.02s  0.00s w
root pts/1    104-7-14-91.ligh 23:40    5.00s  0.01s  0.03s sshd: root [priv]
[ubuntu@ip-172-31-48-251 ~]$

這裏列出了很多有用的資訊。首先,你可以看到站羣服務器執行時間 uptime,也就是站羣服務器持續執行的時間。然後你可以看到有哪些使用者連線到了站羣服務器,當你要確認你沒有影響你同事工作的時候這非常有用。最後 load average 能很好的向你展示站羣服務器的健康狀態。
history

[ubuntu@ip-172-31-48-251 ~]$ history
   1  cd /var/app/current/log/
   2  ls -al
   3  tail -n 3000 production.log
   4  service apache2 status
   5  cat ../../app/services/discourse_service.rb

history 能告訴你當前連線的使用者之前執行了什麼命令。你可以看到很多關於這台機器之前在執行什麼型別的任務、可能出現了什麼錯誤、可以從哪裏開始除錯工作等資訊。
top

top – 23:47:54 up 273 days, 21:00,  2 users,  load average: 0.02, 0.07, 0.10
Tasks:  79 total,   2 running,  77 sleeping,   0 stopped,   0 zombie
Cpu(s):  1.0%us,  0.0%sy,  0.0%ni, 98.7%id,  0.0%wa,  0.0%hi,  0.0%si,  0.3%st
Mem:   3842624k total,  3128036k used,   714588k free,   148860k buffers
Swap:        0k total,        0k used,        0k free,  1052320k cached
 PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND
21095 root      20   0  513m  21m 4980 S  1.0  0.6   1237:05 python
1380 healthd   20   0  669m  36m 5712 S  0.3  1.0 265:43.82 ruby
19703 dd-agent  20   0  142m  25m 4912 S  0.3  0.7  11:32.32 python
   1 root      20   0 19596 1628 1284 S  0.0  0.0   0:10.64 init
   2 root      20   0     0    0    0 S  0.0  0.0   0:00.00 kthreadd
   3 root      20   0     0    0    0 S  0.0  0.0  27:31.42 ksoftirqd/0
   4 root      20   0     0    0    0 S  0.0  0.0   0:00.00 kworker/0:0
   5 root       0 -20     0    0    0 S  0.0  0.0   0:00.00 kworker/0:0H
   7 root      20   0     0    0    0 S  0.0  0.0  42:51.60 rcu_sched
   8 root      20   0     0    0    0 S  0.0  0.0   0:00.00 rcu_bh

你想知道的下一個資訊:站羣服務器當前在執行什麼工作。使用 top 命令你可以看到所有正在執行的程序,然後可以按照 CPU 、內存使用進行排序,並找到佔用資源的程序。
df

[ubuntu@ip-172-31-48-251 ~]$ df -h
Filesystem      Size  Used Avail Use% Mounted on
/dev/xvda1      7.8G  4.5G  3.3G  58% /
devtmpfs        1.9G   12K  1.9G   1% /dev
tmpfs           1.9G     0  1.9G   0% /dev/shm

你站羣服務器正常工作需要的下一個重要資源就是磁碟空間。磁碟空間消耗完是非常典型的問題。
netstat

[ubuntu@ip-172-31-48-251 ec2-user]# netstat -lp
Active Internet connections (only servers)
Proto Recv-Q Send-Q Local Address               Foreign Address             State       PID/Program name
tcp        0      0 *:http                      *:*                         LISTEN      1637/nginx
tcp        0      0 *:ssh                       *:*                         LISTEN      1209/sshd
tcp        0      0 localhost:smtp              *:*                         LISTEN      1241/sendmail
tcp        0      0 localhost:17123             *:*                         LISTEN      19703/python
tcp        0      0 localhost:22221             *:*                         LISTEN      1380/puma 2.11.1 (t
tcp        0      0 *:4242                      *:*                         LISTEN      18904/jsvc.exec
tcp        0      0 *:ssh                       *:*                         LISTEN      1209/sshd

計算機已成為我們世界的重要一部分,因為它們有通過互聯網進行相互交流的能力。知道你的站羣服務器正在監聽什麼埠、 IP 地址是什麼、以及哪些程序在使用它們,這對於你來説都非常重要。
顯然這個列表會隨著你的目的和你已有的資訊而變化。例如,當你需要除錯效能的時候,Netflix 就有一個自定義的列表。你有任何不在我 Top 5 中的有用命令嗎? 在評論部分和我們一起分享吧!