Skip to main content
관찰성이 없으면 문제를 고칠 수 없습니다. 최소한 “요청-응답-비용-지연”은 한 흐름으로 추적되어야 합니다.

트레이싱

요청 단위로 체인/툴 호출/검색 단계를 추적합니다

메트릭과 알림

운영 지표와 임계값 기반 알림 체계를 정의합니다

비용 모니터링

토큰/모델/기능별 비용을 분해해 최적화합니다

최소 계측 항목

  • request_id / session_id / user_segment
  • prompt version / model version / retrieval version
  • latency breakdown (검색, 생성, 후처리)
  • input/output tokens, cache hit
  • safety filter 결과, fallback 발생 여부

학습 완료 기준

  • 이 섹션의 핵심 개념을 팀 문서로 설명할 수 있습니다.
  • 최소 1개 운영 시나리오를 직접 실행하고 결과를 기록할 수 있습니다.
  • 실패 기준과 롤백 기준을 문서로 정의할 수 있습니다.
  • 다음 섹션으로 넘어가기 전 필수 체크리스트를 완료할 수 있습니다.

실무 적용 체크리스트

  • 현재 운영 중인 모델/프롬프트 버전을 식별할 수 있습니다.
  • 품질·비용·지연 중 우선 KPI를 1순위로 정했습니다.
  • 실험과 운영 환경(dev/stage/prod) 경계를 분리했습니다.
  • 주간 리뷰 주기와 담당자를 지정했습니다.

다음 문서

다음: 트레이싱 설계

학습 흐름을 이어서 진행합니다.

운영 시작 체크

초기 운영에서는 모든 요청을 100% 저장하기보다 핵심 엔드포인트부터 계측합니다. 트래픽이 안정되면 샘플링 정책을 도입해 비용을 줄이고도 분석 가능성을 유지할 수 있습니다. 추가로 분기별로 계측 항목을 재정의해 노이즈를 줄이세요.