Skip to main content

Azure 기초

Azure는 기업 환경의 계정 통합과 정책 관리 강점이 큽니다. 초기에는 구독/리소스 그룹/네트워크 경계를 명확히 잡는 것이 핵심입니다.

학습 목표

  • Azure 구독/리소스 그룹/IAM 구조를 설명할 수 있습니다.
  • AI/ML 워크로드에 필요한 핵심 서비스와 Azure ML 생태계를 연결할 수 있습니다.
  • GPU VM 시리즈를 비교하고 적합한 인스턴스를 선택할 수 있습니다.
  • 운영 보안과 비용 통제를 초기 단계에 반영할 수 있습니다.

왜 Azure인가

Azure는 Microsoft Entra ID(구 Azure AD)를 통한 기업 인증 통합과, Office 365/Teams 연동이 강점입니다. 기업 보안 정책이 엄격한 환경에서 선호됩니다. Azure Machine Learning은 학습부터 배포까지 통합 파이프라인을 제공합니다.

핵심 서비스 맵

영역서비스AI/ML 용도
컴퓨팅Virtual Machines, AKS, Functions학습/서빙, 컨테이너, 경량 추론
저장소Blob Storage, Managed Disks, Files데이터셋, 체크포인트, 공유 파일
네트워크Virtual Network, Application Gateway, DNS격리, 로드밸런싱, 이름 해석
보안Microsoft Entra ID, Key Vault인증/인가, 비밀정보
관측성Azure Monitor, Log Analytics메트릭/로그, 쿼리 기반 분석
AI/MLAzure Machine Learning, Azure OpenAI ServiceML 파이프라인, GPT/DALL-E API

Azure ML 서비스 구성

Azure Machine Learning Workspace
├── Compute        ── 학습/추론 클러스터(GPU VM, CPU VM)
├── Datastores     ── Blob Storage, Data Lake 연결
├── Experiments    ── 학습 실험 추적 (MLflow 호환)
├── Models         ── 모델 레지스트리 (버전 관리)
├── Endpoints      ── 실시간/배치 추론 엔드포인트
└── Pipelines      ── 데이터 전처리 → 학습 → 배포 자동화

GPU VM 시리즈 비교

VM 시리즈GPUGPU 메모리주요 용도시간당 비용(참고)
NC6s_v3V100 x116GB경량 학습, 추론~$3.1
NC24ads_A100_v4A100 x180GB중형 학습~$3.7
ND96asr_v4A100 x8320GB대규모 학습~$27.2
ND96isr_H100_v5H100 x8640GBLLM 학습, 최고 성능~$98.3
NV36ads_A10_v5A10 x124GB추론, 시각화~$1.8
Azure GPU VM은 리전별 가용성 차이가 큽니다. East US, West Europe, Southeast Asia 순으로 가용성이 높습니다. Quota 증가 요청은 최소 2-3일 소요되므로 미리 신청하세요.

RBAC 설계 예시

Azure RBAC는 구독 > 리소스 그룹 > 리소스 계층에서 역할을 할당합니다.
역할범위대상
Reader구독 전체경영진, 비용 관리자
Contributor리소스 그룹(dev)개발팀
AzureML Data ScientistML WorkspaceML 엔지니어
Key Vault Secrets UserKey Vault서비스 파이프라인
# Azure CLI로 역할 할당
az role assignment create \
  --assignee user@company.com \
  --role "AzureML Data Scientist" \
  --scope /subscriptions/{sub-id}/resourceGroups/ml-prod

시작 순서(권장)

1

구독/리소스 그룹 설계

환경별(dev/stage/prod) 리소스 그룹을 분리합니다. 명명 규칙을 미리 정합니다.
2

네트워크 경계 확정

VNet/서브넷과 NSG(네트워크 보안 그룹) 규칙을 확정합니다.
3

Key Vault로 비밀정보 분리

API 키, DB 연결 문자열 등을 Key Vault에 저장하고, 서비스 프린시펄로 접근합니다.
4

컴퓨팅 배치

GPU VM 또는 AKS 클러스터를 배치합니다.
5

모니터링/경보 설정

Azure Monitor와 비용 경보를 설정합니다.

비용 관리 도구

도구용도
Cost Management + Billing일/주/월 비용 분석, 예산 설정, 알림
Azure Advisor비용 최적화 권장 사항 (유휴 리소스, 리사이징)
Azure Reservations1년/3년 예약으로 최대 72% 절감
Spot VMs중단 허용 워크로드에 최대 90% 절감

실무 포인트

  • 환경별(dev/stage/prod) 리소스 그룹을 분리합니다.
  • 서비스 프린시펄 권한을 최소화합니다. Managed Identity를 우선 사용합니다.
  • GPU VM 지역 가용성과 quota를 사전 확인합니다.
  • 진단 로그를 Log Analytics Workspace에 중앙 수집합니다.
  • 태그(env, team, cost-center)를 Azure Policy로 강제합니다.
관리 단위가 과도하게 많아지면 권한/비용 추적이 오히려 어려워집니다. 환경 기준 + 서비스 기준으로 단순하게 시작하세요. (예: rg-ml-prod, rg-ml-dev)
키를 나중에 분리하면 배포 파이프라인 전체를 다시 수정해야 합니다. 초기부터 Key Vault 기준으로 환경변수를 주입하세요. Managed Identity와 함께 쓰면 키 파일 관리가 불필요합니다.
API 성공률, p95 지연시간, GPU 사용률, 노드 리소스 사용률, 비용 추세를 함께 보세요. Azure Monitor Workbook으로 통합 대시보드를 구성하면 효율적입니다.
Azure OpenAI는 리전별 모델 가용성과 TPM(분당 토큰) 할당이 다릅니다. 프로덕션 전에 필요한 모델과 처리량을 확인하고 할당량 증가를 요청하세요.

체크리스트

  • 구독/리소스 그룹 구조가 문서화됐나요?
  • Key Vault와 역할 권한 분리가 적용됐나요?
  • Managed Identity를 서비스 프린시펄 대신 사용하고 있나요?
  • GPU VM 가용성과 비용을 검토했나요?
  • 모니터링/알림 정책이 설정됐나요?
  • 비용 태그가 Azure Policy로 강제되고 있나요?
  • 진단 로그가 Log Analytics에 중앙 수집되고 있나요?

다음 문서