메트릭과 알림 - 배움 에이아이

지표가 많아도 액션이 없으면 의미가 없습니다. 알림은 “누가 언제 무엇을 할지”까지 포함해야 합니다.

핵심 메트릭 세트

카테고리	메트릭	목적
품질	task success, groundedness	사용자 성과 추적
안정성	error rate, timeout rate	장애 조기 감지
성능	p50/p95 latency	SLA 관리
비용	cost/request, token/request	비용 통제
안전	policy violation rate	규정 준수

알림 설계 예시

조건	심각도	대응
p95 latency 15분 연속 상승	중	온콜 확인, 모델 라우팅 점검
error rate 급증	상	트래픽 제한, 롤백 검토
policy violation 증가	상	해당 기능 임시 차단, 원인 분석
cost/request 급등	중	캐시/모델 라우팅 재조정

알림 피로 줄이기

단일 요청 실패는 알림에서 제외
5~15분 집계 윈도우로 노이즈 완화
같은 원인의 중복 알림은 묶어서 발송
알림마다 런북 링크를 포함

Langfuse에서 바로 보는 운영 화면

1) 대시보드에서 지연/비용 추세를 확인합니다

기본 대시보드에서 latency/cost/usage를 먼저 확인합니다.
실험 배포 직후에는 updated at 기준으로 최신 대시보드를 우선 점검합니다.

Langfuse metrics dashboard

2) Spend alerts로 비용 알림 정책을 운영합니다

조직 설정의 Spend alerts에서 임계값을 설정합니다.
월간 상한 + 단기 급등(일/시간) 알림을 함께 둡니다.

Langfuse spend alerts

알림 조건은 분기마다 재조정합니다. 트래픽 규모가 바뀌면 임계값도 함께 바꿔야 합니다.

실무 적용 체크리스트

이 문서의 규칙을 실제 서비스 플로우에 매핑했습니다.
측정 지표와 실패 임계값을 숫자로 정의했습니다.
변경 전/후를 비교할 기준 데이터셋 또는 로그를 준비했습니다.
팀 내 공유 문서(런북/가이드)에 반영했습니다.

자주 나는 실수

기준 지표 없이 개선을 선언합니다.
한 번에 여러 변수를 바꿔 원인 추적이 불가능해집니다.
롤백 조건 없이 배포해 장애 복구가 늦어집니다.

다음 문서

다음: 비용 모니터링

학습 흐름을 이어서 진행합니다.

트레이싱 설계 비용 모니터링