의사결정 기준
선택 가이드
| 접근 | 적합한 상황 | 장점 | 한계 |
|---|---|---|---|
| 프롬프트 개선 | 출력 형식, 어조, 간단한 규칙 위반 | 빠르고 저비용 | 복잡한 행동 패턴 학습은 어렵다 |
| RAG | 최신 문서 기반 질의응답, 근거 인용 필요 | 최신성/근거성 확보 | 검색 품질에 크게 의존 |
| 파인튜닝 | 반복 업무 패턴, 일관된 도메인 행동 필요 | 행동 일관성 강화 | 데이터/평가/운영 비용이 크다 |
파인튜닝 시작 전 최소 조건
- 실패 케이스 100개 이상이 축적되어 있다
- 동일 실패가 여러 사용자/시나리오에서 반복된다
- 프롬프트/RAG 개선 후에도 목표 지표에 미달한다
- 배포 후 모니터링과 롤백 체계가 준비되어 있다
시작하지 말아야 하는 경우
- “성능이 애매하게 아쉽다” 수준에서 원인 분해가 안 된 경우
- 평가 기준이 없는 경우
- 데이터 라이선스/개인정보 이슈가 정리되지 않은 경우
- 운영팀이 모델 버전 관리 체계를 갖추지 못한 경우
실무 적용 체크리스트
- 이 문서의 규칙을 실제 서비스 플로우에 매핑했습니다.
- 측정 지표와 실패 임계값을 숫자로 정의했습니다.
- 변경 전/후를 비교할 기준 데이터셋 또는 로그를 준비했습니다.
- 팀 내 공유 문서(런북/가이드)에 반영했습니다.
자주 나는 실수
- 기준 지표 없이 개선을 선언합니다.
- 한 번에 여러 변수를 바꿔 원인 추적이 불가능해집니다.
- 롤백 조건 없이 배포해 장애 복구가 늦어집니다.
다음 문서
다음: 데이터셋 설계
학습 흐름을 이어서 진행합니다.

