관찰성 & SRE 기초
운영 품질은 “문제가 없을 때”가 아니라 “문제가 생겼을 때 얼마나 빨리 복구하는가”로 결정됩니다.학습 목표
- 메트릭/로그/트레이싱의 역할을 구분하고 함께 활용할 수 있습니다.
- SLI/SLO/Error Budget 개념을 실무 관점으로 이해합니다.
- Prometheus + Grafana 기본 구성을 설명할 수 있습니다.
- 알림과 런북 중심의 대응 체계를 설계할 수 있습니다.
관찰성 3축 (Three Pillars)
| 축 | 역할 | 핵심 질문 | 대표 도구 |
|---|---|---|---|
| Metrics | 시스템 상태를 수치로 관찰 | ”지금 얼마나 바쁜가?” | Prometheus, CloudWatch |
| Logs | 이벤트를 시간순으로 기록 | ”무슨 일이 있었나?” | Loki, OpenSearch, CloudWatch Logs |
| Traces | 요청의 전체 경로를 추적 | ”어디서 느려졌나?” | Jaeger, Tempo, X-Ray |
메트릭으로 “문제가 있다”를 감지하고, 로그로 “무슨 문제인지” 파악하고,
트레이스로 “어디서 문제가 발생했는지” 특정합니다.
세 축이 연결되지 않으면 장애 진단에 시간이 배로 걸립니다.
SRE 핵심 개념
SLI / SLO / SLA 정의
| 개념 | 정의 | 예시 | 담당 |
|---|---|---|---|
| SLI (Service Level Indicator) | 서비스 품질을 측정하는 지표 | 요청 성공률, p99 응답시간 | 엔지니어 |
| SLO (Service Level Objective) | SLI의 목표치 | 성공률 99.9%, p99 < 500ms | 엔지니어 + PM |
| SLA (Service Level Agreement) | 고객과의 계약 (위반 시 보상) | 월 가용성 99.5% | 비즈니스 |
| Error Budget | SLO에서 허용되는 실패 범위 | 월 0.1% 실패 허용 | 팀 전체 |
Error Budget 활용법
Prometheus + Grafana 기본 구성
대시보드 구성 (Grafana)
Grafana에서 Prometheus를 데이터소스로 연결하고, 핵심 지표 대시보드를 구성합니다.
서비스별 성공률, 지연시간, 에러율, 리소스 사용량을 한 화면에 표시합니다.
운영 기본 세트 (LLM 서비스)
| 지표 | 유형 | 임계치 예시 | 알림 수준 |
|---|---|---|---|
| API 성공률 | SLI | < 99.5% | Critical |
| p95 응답시간 | SLI | > 3초 | Warning |
| p99 응답시간 | SLI | > 10초 | Critical |
| 외부 LLM API 실패율 | 의존성 | > 5% | Warning |
| 토큰 사용량/비용 | FinOps | 일 예산 초과 | Warning |
| 큐 대기시간 | 용량 | > 30초 | Warning |
| GPU 사용률 | 리소스 | > 90% 5분 지속 | Warning |
| 디스크 사용률 | 리소스 | > 85% | Warning |
알림 설계 원칙
| 원칙 | 설명 |
|---|---|
| 행동 가능성 | 알림을 받고 할 수 있는 구체적 행동이 있어야 함 |
| 증상 기반 | 원인이 아니라 증상(사용자 영향)을 알림으로 설정 |
| 노이즈 최소화 | 동일 장애에 대한 중복 알림 억제 (grouping) |
| 에스컬레이션 | Warning 5분 지속 → Critical → 담당자 호출 |
| 런북 연결 | 모든 알림에 대응 절차 문서 링크 포함 |
장애 대응 흐름
초보자 실수: 알림을 많이 만들면 안전하다고 생각
초보자 실수: 알림을 많이 만들면 안전하다고 생각
알림 과다는 오히려 중요한 신호를 묻습니다.
즉시 대응이 필요한 지표부터 적은 수(5개 이하)로 시작하세요.
1주일간 한 번도 행동으로 이어지지 않는 알림은 삭제하거나 등급을 낮추세요.
런북이 필요한 이유
런북이 필요한 이유
장애는 긴장 상태에서 발생합니다.
런북이 있으면 개인 숙련도 차이를 줄이고 대응 속도를 안정화할 수 있습니다.
최소 항목: 증상 설명, 확인 명령어, 복구 절차, 에스컬레이션 기준.
LLMOps 관점 추가 지표
LLMOps 관점 추가 지표
정답률/환각률 같은 품질 지표도 운영 지표와 함께 봐야 합니다.
품질 하락은 시스템 장애만큼 중요한 운영 이슈입니다.
토큰 비용 급증, 응답 품질 저하, 컨텍스트 윈도우 초과도 모니터링 대상입니다.
Prometheus 메트릭 타입 4가지
Prometheus 메트릭 타입 4가지
- Counter: 누적 증가 값 (요청 수, 에러 수).
rate()함수로 초당 비율 계산. - Gauge: 현재 값 (CPU 사용률, 메모리). 올라가거나 내려갈 수 있음.
- Histogram: 값의 분포 (응답시간 분포). p50/p95/p99 계산에 사용.
- Summary: 클라이언트 측 분위수 계산. Histogram과 유사하나 서버 부하 적음.
체크리스트
- 핵심 서비스 SLO가 정의되어 있나요?
- 관찰성 3축(메트릭/로그/트레이스)이 모두 수집되나요?
- 알림 기준과 대응 런북이 있나요?
- 알림이 행동 가능하고, 노이즈가 통제되나요?
- 장애 회고와 재발 방지 액션이 추적되나요?
- Error Budget 기반으로 배포 속도를 조절하나요?

