Prometheus 알람 tier 나누기 — 피로 줄이기
이서연 · 2025-07-09
모니터링Prometheus
모든 임계값을 page로내면 온콜이 무의미해집니다. 우리는 tier0(기록만), tier1(업무시간 Slack), tier2(야간 페이지)로 나눕니다.
예: 인터페이스 utilization 80%는 tier1, BGP session down은 tier2. 라벨에 service와 site를 붙여 Alertmanager에서 팀별로 분기합니다.
「SNMP와 Prometheus 모니터링」 과정의 3주차 과제는 기존 룰 10개를 tier로 재분류하는 것입니다. 멘토는 “너무 많은 tier2”에만 코멘트를 남깁니다.
완벽한 임계값은 없습니다. 분기마다 한 번씩 리뷰 미팅을 권장합니다.