Skip to main content

A/B 테스트와 롤아웃

좋은 변경도 검증 없이 전체 배포하면 장애가 됩니다. A/B 테스트는 “효과”와 “부작용”을 동시에 확인하는 과정입니다.

실험 설계 항목

항목설명
가설어떤 지표가 얼마나 개선될지
단위사용자/세션/요청 단위 분할
기간트래픽 변동을 반영한 충분한 기간
성공 기준최소 개선폭 + 안전 지표 조건
중단 기준오류율/지연/비용 급증 시 즉시 중단

롤아웃 전략

1

Canary 1-5%

고위험 지표를 집중 관찰합니다.
2

점진 확대 10-30-50%

단계마다 품질/비용/지연을 확인합니다.
3

100% 승격

기준 충족 시 기본 설정으로 전환합니다.

실패 시 대응

  • 즉시 이전 버전으로 롤백
  • 어떤 지표가 악화됐는지 사고 기록
  • 평가셋/프롬프트 가정 보완 후 재실험
실험군과 대조군의 사용자 분포가 다르면 결과를 신뢰할 수 없습니다. 세그먼트 균형을 먼저 확인하세요.