쿠버네티스 교육/쿠버네티스 책 출간 준비
[책 주요 내용] AlertManager 실습 과제 및 정리
Jerry_이정훈
2021. 11. 24. 16:32
728x90
최근에 블로그가 완전 뜸합니다. ^^ 쿠버네티스 관련 책을 쓰고 있어 나름 집중하느라 블로그는 소흘하네요. 하지만 얼마없는 방문수이지만 가끔씩 들어오시는 분들이 있네요. 그분들에게 조금이라도 도움이 될까하여 현재 쓰고 있는 책의 주요 부분을 소개합니다.
책의 19장 AlertManager의 실습 과제와 핵심 내용을 공유합니다. 제 책이 실습 과제 위주라 실습만 잘 하셔도 도움이 될 것 같습니다.
실습과제
- 프로메테우스, 얼럿매니저 웹서비스에서 경고(Alert) 메뉴의 주요 기능을 확인합니다.
- 얼럿매니저 연동을 위하여 별도의 슬랙채널과 해당 채널의 웹훅 URL을 생성합니다. 웹훅 URL을 얼럿매니저 설정 파일(alertmanager.yaml)에 등록합니다.
- 임의의 노드를 전원 오프하여 얼럿매니저에서 정상적으로 경고 메시지가 전달되는지 확인합니다. 헬름 차트로 사전 설치된 시스템 경고 메시지 정책(prometheusrules)의 상세 내용을 슬랙 채널에 전달된 메시지로 확인합니다.
- 사용자 정의 시스템 경고 메시지 정책(prometheusrules)를 생성합니다. 파일 시스템 사용량이 80% 이상인 경우 경보를 발생합니다. 기존 ‘prometheusrules’를 수정하여 새로운 정책을 생성합니다.
주요 내용 정리
- 프로메테우스는 시스템 경고를 전달하는 기능을 얼럿매니저(alertmanager) 분리하였습니다. 얼럿매니저에서 경고 메시지 전달 채널 설정, 정기 작업 등의 상황 시 메시지 중단 등의 기능을 사용할 수 있습니다.
- 시스템 경고 메시지는 1) Root-Cause 에러를 빠르게 파악할 수 있는 직관적인 경고 메시지 2) 적절한 분량과 간격 3) 효과적인 채널(슬랙, 이메일, 문자 등) 4) 정확한 담당자에게 전달 등의 요소를 갖추어야 합니다.
- 프로메테우스는 임계값, 메시지 발생 간격 설정 등의 시스템 경고 정책을 별도의 PrometheusRules CRD(Custom Resource Definition)로 관리합니다.
- 실습으로 얼럿매니저에 슬랙 웹훅 URL을 이용하여 시스템 경보 메시지 채널로 등록하였습니다. 노드의 전원을 다운하고 발생하는 메시지로 프로메테우스와 얼럿매니저의 세부 경고 기능과 상세 슬랙 메시지를 확인하였습니다.
- 사용자 정의 prometheusrules을 신규 생성하여 파일시스템 사용률이 80% 이상이면 시스템 경고 메시지가 발생하도록 설정하였습니다.
반응형