【需求】
寫一個監控腳本,監控系統負載,如果系統負載超過10,需要記錄系統狀態信息。
提示:
1)系統負載命令使用uptime看,過去1分鐘的平均負載
2)系統狀態使用如下工具標記:top、 vmstat、 ss
3)要求每隔20s監控一次
4)系統狀態信息需要保存到/opt/logs/下面,保留一個月,文件名建議帶有`date +%s`后綴或者前綴
【解析】
這是一個監控腳本,對于監控腳本,通常有兩種思路
一個是做一個死循環,讓它一直跑著,每檢測一次,中間間隔一段時間,比如本題要求的20s
另外一種是一分鐘執行一次,利用系統的任務計劃,每分鐘執行
本案例要求每20s監控一次,所以只能使用第一種,死循環
死循環,使用while :; do ...; done
這里的 : 你可以理解成條件為真
再來看腳本要求,監控系統負載,超過10就記錄系統狀態信息
問題的關鍵點在于,如何獲取到系統負載的值
系統負載,在Linux里面可以使用w或者uptime或者top命令都可以獲取到
這里的load average 后面的三個數字就是系統負載,它們分別表示過去1分鐘、5分鐘、15分鐘內系統的平均負載
為了更加精準,我們需要選擇1分鐘的平均負載
那這個負載到底代表著什么含義呢?
就拿這個1分鐘負載來說,這個數字表示,過去1分鐘,平均有多少個進程在使用CPU資源
使用CPU資源的進程越多,那就意味著CPU越忙
那,這個數字為多少是合適呢?
這取決于你的系統里有多少顆CPU,這個數字不是物理CPU,指的是邏輯CPU個數,那如何查看?
使用lscpu命令看
比如,你系統有8顆CPU,那么系統負載為8時,表示1顆CPU處理一個進程,這樣CPU沒有空閑也不忙,是最合適的
好了,說完系統負載,再回頭看腳本
如何拿到這個1分鐘的負載數值呢?
這就需要借助sed awk 以及 cut等各種處理字符串的工具了
uptime |awk -F 'average:' '{print $2}'
首先將三個數字打出來,然后想辦法截取第一個數字
此時,可以使用cut來截取
這時候出現的結果還不是最終的數字,還需要將最前面的空格去掉,而且我們不需要小數點以及后面的數字
使用sed將空格去掉
再使用cut將小數點前面的數字截取
其實,寫腳本就需要大家一步一步地去嘗試
拿到負載值之后,再去和10做比較
可以先將負載值賦值到變量里,然后用變量去做比較
if [ $load -gt 10 ]; then ...; fi
如果負載值高于10,就需要記錄系統狀態信息
題目也提示我們了,獲取系統負載的狀態,有top vmstat 和 ss 三個命令
如果大家不會使用這幾個命令,那么腳本就無法寫出來了
所以,寫shell腳本的前提是,你必須要具備一定的認知
top -bn1 可以一次性展示top的結果,但是沒必要將所有都記錄下來,只需要前100行就足夠了,因為我們關注的是排在最前面的幾個進程
vmstat 命令可以記錄包括cpu、內存、io等信息,用法是 vmstat n1 n2 , 其中n1和n2是兩個數字,前面的數字,表示幾秒鐘打印一次信息,后面的數字是打印幾次,建議是1秒1次,打印10次
所以最終用法啊是
vmstat 1 10
ss是用來查看網絡鏈接狀態的命令,這里需要使用
ss -an
有了記錄系統狀態信息的命令后,接下來就是要規劃,將這些信息記錄到哪個日志里
兩種思路,一個是一股腦全部記錄到一個文件里,每次記錄都是追加
另外一個思路是,針對top、vmstat、ss分別記錄日志
這里我選擇第二個,這樣方便查看,題目中要求給這個日志加一個date +%s的時間戳作為后綴前綴或者后綴,那么就用后綴吧,比如:
top.`date +%s`, vmstat.`date+%s`, ss.`date +%s`
刪除掉一個月以前的,使用find查看即可,還需要注意,/opt/logs/下面有可能有其它日志,所以我們只需要針對本腳本產生的日志進行搜索
find可以這樣做
find /opt/logs -name "top*" -o -name "vmstat*" -o -name "ss*"
說明一下,這里的-o表示或者的意思,如果不加-o,那么就是并且
find 還支持將一堆條件搞到一起,作為一個整體,需要使用(),例如
find /opt/logs ( -name "top*" -o -name "vmstat*" -o -name "ss*" ) -mtime +30
需要注意,小括號使用脫義符號脫義了,并且前后有空格
【參考答案】
腳本最終結果是這樣的:
#!/bin/bash [ -d /opt/logs ] || mkdir -p /opt/logs while : do load=`uptime |awk -F 'average:' '{print $2}'|cut -d',' -f1|sed 's/ //g' |cut -d. -f1` if [ $load -gt 10 ] then top -bn1 |head -n 100 > /opt/logs/top.`date +%s` vmstat 1 10 > /opt/logs/vmstat.`date +%s` ss -an > /opt/logs/ss.`date +%s` fi sleep 20 find /opt/logs ( -name "top*" -o -name "vmstat*" -o -name "ss*" ) -mtime +30 |xargs rm -f done
腳本運行時,丟入后臺去
著重提醒一下,有的同學將最后面這個load賦值或者find命令放到了while循環外面,
這是不對的,放到while循環前面它只會執行一次,而放到while循環后面永遠也不會執行
審核編輯:湯梓紅
-
Linux
+關注
關注
87文章
11400瀏覽量
212035 -
監控系統
+關注
關注
21文章
3991瀏覽量
180182 -
腳本
+關注
關注
1文章
395瀏覽量
15181
原文標題:監控系統負載記錄系統狀態
文章出處:【微信號:aming_linux,微信公眾號:阿銘linux】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論