비용 모니터링
LLM 비용은 보통 “조금씩 계속” 새어 나갑니다. 요청당 비용을 분해하지 않으면 최적화 포인트를 찾기 어렵습니다.비용 분해 축
| 축 | 예시 |
|---|---|
| 모델 | 고성능 모델 vs 경량 모델 |
| 기능 | 검색/요약/분류/에이전트 실행 |
| 사용자군 | 무료/유료, 내부/외부 |
| 시간대 | 배치 시간, 피크 시간 |
비용 최적화 레버
- 프롬프트 길이 축소
- 캐시 사용률 개선
- 모델 라우팅 계층화(기본 경량, 필요 시 상위 모델)
- retrieval top-k 최적화
- 불필요한 재시도 제한
월간 비용 리뷰 체크리스트
- 상위 10개 고비용 엔드포인트 확인
- 비용 대비 성능 개선폭 검토
- 캐시 적중률 하락 원인 분석
- 비정상 트래픽/오용 패턴 점검
- 다음 달 절감 실험 항목 확정

