Azure 기초
Azure는 기업 환경의 계정 통합과 정책 관리 강점이 큽니다. 초기에는 구독/리소스 그룹/네트워크 경계를 명확히 잡는 것이 핵심입니다.학습 목표
- Azure 구독/리소스 그룹/IAM 구조를 설명할 수 있습니다.
- AI/ML 워크로드에 필요한 핵심 서비스와 Azure ML 생태계를 연결할 수 있습니다.
- GPU VM 시리즈를 비교하고 적합한 인스턴스를 선택할 수 있습니다.
- 운영 보안과 비용 통제를 초기 단계에 반영할 수 있습니다.
왜 Azure인가
Azure는 Microsoft Entra ID(구 Azure AD)를 통한 기업 인증 통합과, Office 365/Teams 연동이 강점입니다. 기업 보안 정책이 엄격한 환경에서 선호됩니다. Azure Machine Learning은 학습부터 배포까지 통합 파이프라인을 제공합니다.핵심 서비스 맵
| 영역 | 서비스 | AI/ML 용도 |
|---|---|---|
| 컴퓨팅 | Virtual Machines, AKS, Functions | 학습/서빙, 컨테이너, 경량 추론 |
| 저장소 | Blob Storage, Managed Disks, Files | 데이터셋, 체크포인트, 공유 파일 |
| 네트워크 | Virtual Network, Application Gateway, DNS | 격리, 로드밸런싱, 이름 해석 |
| 보안 | Microsoft Entra ID, Key Vault | 인증/인가, 비밀정보 |
| 관측성 | Azure Monitor, Log Analytics | 메트릭/로그, 쿼리 기반 분석 |
| AI/ML | Azure Machine Learning, Azure OpenAI Service | ML 파이프라인, GPT/DALL-E API |
Azure ML 서비스 구성
GPU VM 시리즈 비교
| VM 시리즈 | GPU | GPU 메모리 | 주요 용도 | 시간당 비용(참고) |
|---|---|---|---|---|
NC6s_v3 | V100 x1 | 16GB | 경량 학습, 추론 | ~$3.1 |
NC24ads_A100_v4 | A100 x1 | 80GB | 중형 학습 | ~$3.7 |
ND96asr_v4 | A100 x8 | 320GB | 대규모 학습 | ~$27.2 |
ND96isr_H100_v5 | H100 x8 | 640GB | LLM 학습, 최고 성능 | ~$98.3 |
NV36ads_A10_v5 | A10 x1 | 24GB | 추론, 시각화 | ~$1.8 |
Azure GPU VM은 리전별 가용성 차이가 큽니다. East US, West Europe, Southeast Asia 순으로 가용성이 높습니다.
Quota 증가 요청은 최소 2-3일 소요되므로 미리 신청하세요.
RBAC 설계 예시
Azure RBAC는 구독 > 리소스 그룹 > 리소스 계층에서 역할을 할당합니다.| 역할 | 범위 | 대상 |
|---|---|---|
Reader | 구독 전체 | 경영진, 비용 관리자 |
Contributor | 리소스 그룹(dev) | 개발팀 |
AzureML Data Scientist | ML Workspace | ML 엔지니어 |
Key Vault Secrets User | Key Vault | 서비스 파이프라인 |
시작 순서(권장)
비용 관리 도구
| 도구 | 용도 |
|---|---|
| Cost Management + Billing | 일/주/월 비용 분석, 예산 설정, 알림 |
| Azure Advisor | 비용 최적화 권장 사항 (유휴 리소스, 리사이징) |
| Azure Reservations | 1년/3년 예약으로 최대 72% 절감 |
| Spot VMs | 중단 허용 워크로드에 최대 90% 절감 |
실무 포인트
- 환경별(dev/stage/prod) 리소스 그룹을 분리합니다.
- 서비스 프린시펄 권한을 최소화합니다. Managed Identity를 우선 사용합니다.
- GPU VM 지역 가용성과 quota를 사전 확인합니다.
- 진단 로그를 Log Analytics Workspace에 중앙 수집합니다.
- 태그(
env,team,cost-center)를 Azure Policy로 강제합니다.
초보자 실수: 리소스 그룹을 기능별로 너무 잘게 분리
초보자 실수: 리소스 그룹을 기능별로 너무 잘게 분리
관리 단위가 과도하게 많아지면 권한/비용 추적이 오히려 어려워집니다.
환경 기준 + 서비스 기준으로 단순하게 시작하세요. (예:
rg-ml-prod, rg-ml-dev)Key Vault를 먼저 붙여야 하는 이유
Key Vault를 먼저 붙여야 하는 이유
키를 나중에 분리하면 배포 파이프라인 전체를 다시 수정해야 합니다.
초기부터 Key Vault 기준으로 환경변수를 주입하세요. Managed Identity와 함께 쓰면 키 파일 관리가 불필요합니다.
운영 지표 기본 세트
운영 지표 기본 세트
API 성공률, p95 지연시간, GPU 사용률, 노드 리소스 사용률, 비용 추세를 함께 보세요.
Azure Monitor Workbook으로 통합 대시보드를 구성하면 효율적입니다.
Azure OpenAI Service 활용 시 주의
Azure OpenAI Service 활용 시 주의
Azure OpenAI는 리전별 모델 가용성과 TPM(분당 토큰) 할당이 다릅니다.
프로덕션 전에 필요한 모델과 처리량을 확인하고 할당량 증가를 요청하세요.
체크리스트
- 구독/리소스 그룹 구조가 문서화됐나요?
- Key Vault와 역할 권한 분리가 적용됐나요?
- Managed Identity를 서비스 프린시펄 대신 사용하고 있나요?
- GPU VM 가용성과 비용을 검토했나요?
- 모니터링/알림 정책이 설정됐나요?
- 비용 태그가 Azure Policy로 강제되고 있나요?
- 진단 로그가 Log Analytics에 중앙 수집되고 있나요?

