出任何線上事故,先不說其他地方有問題,監控部分是有問題的。聽著很甩鍋的一句話,仔細思考好像有道理。
這里,我對常用的監控對象以及監控指標分類整理,供大家參考:
①硬件監控
包括:電源狀態、CPU 狀態、機器溫度、風扇狀態、物理磁盤、raid 狀態、內存狀態、網卡狀態。
②服務器基礎監控
包括:
CPU:單個 CPU 以及整體的使用情況。
內存:已用內存、可用內存。
磁盤:磁盤使用率、磁盤讀寫的吞吐量。
網絡:出口流量、入口流量、TCP 連接狀態。
④中間件監控
包括:
Nginx:活躍連接數、等待連接數、丟棄連接數、請求量、耗時、5XX 錯誤率。
Tomcat:線程數、當前線程數、請求量、耗時、錯誤量、堆內存使用情況、GC 次數和耗時。
緩存:成功連接數、阻塞連接數、已使用內存、內存碎片率、請求量、耗時、緩存命中率。
消息隊列:連接數、隊列數、生產速率、消費速率、消息堆積量。
⑤應用監控系統
包括:
HTTP 接口:URL 存活、請求量、耗時、異常量。
RPC 接口:請求量、耗時、超時量、拒絕量。
JVM:GC 次數、GC 耗時、各個內存區域的大小、當前線程數、死鎖線程數。
線程池:活躍線程數、任務隊列大小、任務執行耗時、拒絕任務數。
連接池:總連接數、活躍連接數。
日志監控:訪問日志、錯誤日志。
業務指標:視業務來定,比如 PV、訂單量等。
小編此次分享就此結束,咱們下期再見。