Skip to main content
운영 문서는 사고가 났을 때 읽습니다. 짧고 명확해야 하고, 실제로 실행 가능한 절차여야 합니다.

인시던트 대응

장애 감지부터 복구, 사후 회고까지 표준 절차

거버넌스와 보안

데이터 정책, 접근 통제, 감사 로그, 규정 준수 기준

운영 기본선

  • 온콜 책임자와 백업 담당자를 명확히 지정
  • 런북(runbook)을 서비스 단위로 유지
  • 변경은 실험과 승인을 거쳐 배포
  • 보안/개인정보 정책은 프롬프트/로그 모두에 적용

학습 완료 기준

  • 이 섹션의 핵심 개념을 팀 문서로 설명할 수 있습니다.
  • 최소 1개 운영 시나리오를 직접 실행하고 결과를 기록할 수 있습니다.
  • 실패 기준과 롤백 기준을 문서로 정의할 수 있습니다.
  • 다음 섹션으로 넘어가기 전 필수 체크리스트를 완료할 수 있습니다.

실무 적용 체크리스트

  • 현재 운영 중인 모델/프롬프트 버전을 식별할 수 있습니다.
  • 품질·비용·지연 중 우선 KPI를 1순위로 정했습니다.
  • 실험과 운영 환경(dev/stage/prod) 경계를 분리했습니다.
  • 주간 리뷰 주기와 담당자를 지정했습니다.

다음 문서

다음: 인시던트 대응

학습 흐름을 이어서 진행합니다.

운영 문서화 권장 단위

서비스별로 런북을 나누고, 공통 대응 절차는 별도 플레이북으로 관리합니다. 이 구조를 쓰면 장애 상황에서도 담당자 간 커뮤니케이션 비용을 크게 줄일 수 있습니다. 온콜 교대 시 런북 인수인계 체크리스트를 의무화합니다.