Skip to main content

메트릭과 알림

지표가 많아도 액션이 없으면 의미가 없습니다. 알림은 “누가 언제 무엇을 할지”까지 포함해야 합니다.

핵심 메트릭 세트

카테고리메트릭목적
품질task success, groundedness사용자 성과 추적
안정성error rate, timeout rate장애 조기 감지
성능p50/p95 latencySLA 관리
비용cost/request, token/request비용 통제
안전policy violation rate규정 준수

알림 설계 예시

조건심각도대응
p95 latency 15분 연속 상승온콜 확인, 모델 라우팅 점검
error rate 급증트래픽 제한, 롤백 검토
policy violation 증가해당 기능 임시 차단, 원인 분석
cost/request 급등캐시/모델 라우팅 재조정

알림 피로 줄이기

  • 단일 요청 실패는 알림에서 제외
  • 5~15분 집계 윈도우로 노이즈 완화
  • 같은 원인의 중복 알림은 묶어서 발송
  • 알림마다 런북 링크를 포함
알림 조건은 분기마다 재조정하세요. 트래픽 규모가 바뀌면 임계값도 함께 바꿔야 합니다.