Skip to main content
지표가 많아도 액션이 없으면 의미가 없습니다. 알림은 “누가 언제 무엇을 할지”까지 포함해야 합니다.

핵심 메트릭 세트

카테고리메트릭목적
품질task success, groundedness사용자 성과 추적
안정성error rate, timeout rate장애 조기 감지
성능p50/p95 latencySLA 관리
비용cost/request, token/request비용 통제
안전policy violation rate규정 준수

알림 설계 예시

조건심각도대응
p95 latency 15분 연속 상승온콜 확인, 모델 라우팅 점검
error rate 급증트래픽 제한, 롤백 검토
policy violation 증가해당 기능 임시 차단, 원인 분석
cost/request 급등캐시/모델 라우팅 재조정

알림 피로 줄이기

  • 단일 요청 실패는 알림에서 제외
  • 5~15분 집계 윈도우로 노이즈 완화
  • 같은 원인의 중복 알림은 묶어서 발송
  • 알림마다 런북 링크를 포함

Langfuse에서 바로 보는 운영 화면

1) 대시보드에서 지연/비용 추세를 확인합니다

  • 기본 대시보드에서 latency/cost/usage를 먼저 확인합니다.
  • 실험 배포 직후에는 updated at 기준으로 최신 대시보드를 우선 점검합니다.
Langfuse metrics dashboard

2) Spend alerts로 비용 알림 정책을 운영합니다

  • 조직 설정의 Spend alerts에서 임계값을 설정합니다.
  • 월간 상한 + 단기 급등(일/시간) 알림을 함께 둡니다.
Langfuse spend alerts
알림 조건은 분기마다 재조정합니다. 트래픽 규모가 바뀌면 임계값도 함께 바꿔야 합니다.

실무 적용 체크리스트

  • 이 문서의 규칙을 실제 서비스 플로우에 매핑했습니다.
  • 측정 지표와 실패 임계값을 숫자로 정의했습니다.
  • 변경 전/후를 비교할 기준 데이터셋 또는 로그를 준비했습니다.
  • 팀 내 공유 문서(런북/가이드)에 반영했습니다.

자주 나는 실수

  1. 기준 지표 없이 개선을 선언합니다.
  2. 한 번에 여러 변수를 바꿔 원인 추적이 불가능해집니다.
  3. 롤백 조건 없이 배포해 장애 복구가 늦어집니다.

다음 문서

다음: 비용 모니터링

학습 흐름을 이어서 진행합니다.