A/B 테스트와 롤아웃
좋은 변경도 검증 없이 전체 배포하면 장애가 됩니다. A/B 테스트는 “효과”와 “부작용”을 동시에 확인하는 과정입니다.실험 설계 항목
| 항목 | 설명 |
|---|---|
| 가설 | 어떤 지표가 얼마나 개선될지 |
| 단위 | 사용자/세션/요청 단위 분할 |
| 기간 | 트래픽 변동을 반영한 충분한 기간 |
| 성공 기준 | 최소 개선폭 + 안전 지표 조건 |
| 중단 기준 | 오류율/지연/비용 급증 시 즉시 중단 |
롤아웃 전략
실패 시 대응
- 즉시 이전 버전으로 롤백
- 어떤 지표가 악화됐는지 사고 기록
- 평가셋/프롬프트 가정 보완 후 재실험

