클라우드 개요

클라우드는 서비스 이름을 외우는 것보다 공통 구조를 이해하는 것이 먼저입니다. 공통 구조를 이해하면 벤더가 달라도 운영 원칙을 유지할 수 있습니다.

학습 목표

계정/리전/네트워크/권한/비용의 관계를 설명할 수 있습니다.
3대 클라우드(AWS/Azure/GCP) 서비스 대응 관계를 이해합니다.
AI/머신러닝 워크로드 관점에서 클라우드 선택 기준을 세울 수 있습니다.
초기 설계 실수(권한, 네트워크, 비용)를 예방할 수 있습니다.

왜 중요한가

AI/머신러닝 프로젝트의 성패는 모델 성능만으로 결정되지 않습니다. GPU 확보, 데이터 전송 비용, 보안 통제, 모니터링 등 인프라 운영 역량이 서비스 안정성을 좌우합니다. 클라우드 기본 구조를 이해하면, 어떤 벤더를 사용하든 같은 원칙으로 운영할 수 있습니다.

공통 구조 5계층

계층	역할	AWS	Azure	GCP
계정/프로젝트	과금, 권한, 감사 기준점	Account	Subscription	Project
네트워크	격리, 라우팅, 보안	VPC	VNet	VPC
컴퓨팅	VM, 컨테이너, 서버리스	EC2, EKS, Lambda	VM, AKS, Functions	CE, GKE, Cloud Run
데이터	객체/블록/파일 저장소	S3, EBS, EFS	Blob, Disk, Files	GCS, PD, Filestore
운영	모니터링, 알림, 비용	CloudWatch	Azure Monitor	Cloud Monitoring

클라우드 서비스 대응 비교

기능	AWS	Azure	GCP
머신러닝 플랫폼	SageMaker	Azure 머신러닝	Vertex AI
LLM API	Bedrock	Azure OpenAI	Vertex AI (Gemini)
컨테이너 오케스트레이션	EKS	AKS	GKE
서버리스 컨테이너	Fargate	Container Instances	Cloud Run
객체 저장소	S3	Blob Storage	Cloud Storage
비밀정보 관리	Secrets Manager	Key Vault	Secret Manager
IAM	IAM	Microsoft Entra ID	IAM
데이터 분석	Athena, Redshift	Synapse Analytics	BigQuery
비용 관리	Cost Explorer, Budgets	Cost Management	Billing Reports

AI/머신러닝 관점 GPU 가용성 비교

GPU	AWS	Azure	GCP
A10G	g5 시리즈	NV A10 v5	a2 시리즈
A100 40GB	p4d	NC A100 v4	a2-highgpu
A100 80GB	p4de	ND A100 v4	a2-ultragpu
H100	p5	ND H100 v5	a3 시리즈
TPU	-	-	v4, v5e, v5p
Spot/선점형	Spot Instance	Spot VM	Preemptible/Spot VM

GPU 가용성은 리전에 따라 크게 다릅니다. 특히 H100은 모든 클라우드에서 수요가 높아 사전 쿼터 신청이 필수입니다. TPU는 GCP에서만 사용 가능하며, JAX/TensorFlow 워크로드에 최적화됩니다.

AI/머신러닝 관점 우선순위

클라우드를 선택할 때 다음 4가지를 비교합니다.

GPU 가용성: 원하는 리전에서 원하는 GPU를 확보 가능한가?
데이터 이동 비용: 스토리지/서비스 간 egress 비용은 어떤가?
보안 통제: IAM, KMS, Secret Manager 운영이 쉬운가?
관측성: 지연시간/비용/오류를 통합 모니터링 가능한가?

멀티클라우드 전략

언제 멀티클라우드를 고려하는가

상황	접근 방식
특정 GPU가 한 벤더에서만 가용	학습은 GCP(TPU), 서빙은 AWS(Inf2)
고객 요구로 특정 클라우드 필수	핵심 서빙은 고객 클라우드, 내부 도구는 주력 클라우드
벤더 종속(lock-in) 회피	컨테이너(K8s) 기반으로 이식성 확보
장애 대응(DR)	주력 + 백업 클라우드 구성

멀티클라우드는 운영 복잡도를 크게 높입니다. 명확한 이유 없이 시작하면 비용과 관리 부담만 증가합니다. 단일 클라우드로 시작하고, 필요한 시점에 부분적으로 확장하는 것이 권장됩니다.

멀티클라우드 운영 시 핵심

인증 통합: 각 클라우드의 IAM을 연결하거나, 중앙 IdP(Okta, Entra ID)를 사용합니다.
네트워크 연결: 클라우드 간 전용선(Interconnect) 또는 VPN을 구성합니다.
비용 통합: 클라우드별 비용을 하나의 대시보드에서 추적합니다.
컨테이너 표준화: K8s 기반으로 워크로드를 표준화하면 이식성이 높아집니다.

시작 순서(권장)

계정 구조 확정

팀/환경(dev/stage/prod) 단위로 계정 또는 프로젝트 분리를 먼저 정합니다.

네트워크 경계 설계

퍼블릭/프라이빗 경계를 먼저 정하고 기본 보안 정책을 적용합니다.

권한 모델 적용

사람 계정과 서비스 계정 권한을 분리하고 최소 권한을 적용합니다.

비용 통제 설정

태깅, 예산, 알림을 서비스 시작 시점에 함께 설정합니다.

모니터링 구성

GPU 사용률, API 지연시간, 비용 추이를 통합 대시보드로 구성합니다.

입문자가 많이 놓치는 것: 비용 경보

PoC 단계라서 비용 관리를 미루면, 리소스 미종료로 비용이 빠르게 누적됩니다. 시작일에 예산/경보를 같이 설정합니다. 특히 GPU 인스턴스는 시간당 비용이 높습니다.

벤더 비교를 단순화하는 방법

서비스 이름이 아니라 4가지만 비교합니다.

GPU 가용성 2) 네트워크/보안 운영 난이도 3) 관측성 통합 4) 총비용(TCO) 기능 차이보다 운영 경험과 팀 역량이 선택에 더 큰 영향을 줍니다.

온프렘/클라우드 혼합 운영 시 핵심

데이터 위치, 인증 방식, 네트워크 연결(전용선/VPN), 로그 수집 경계를 먼저 고정해야 운영이 안정됩니다. 특히 데이터 이동 비용(egress)을 사전에 계산합니다.

클라우드 선택 의사결정 기준

기존 팀 역량(AWS 경험이 많으면 AWS), 고객 요구사항(특정 벤더 필수), 기술 요구사항(TPU 필요 시 GCP), 비용 구조를 종합적으로 고려합니다. “최고의 클라우드”는 없고, 상황에 맞는 클라우드가 있습니다.

체크리스트

계정/프로젝트 분리 구조가 정의됐나요?
네트워크 경계(퍼블릭/프라이빗)가 설계됐나요?
비용 태깅과 예산 알림이 설정됐나요?
GPU 가용성과 쿼터를 확인했나요?
모니터링 대시보드가 구성됐나요?

00. 시작하기

01. 시스템 기초

02. 네트워크와 웹

03. 보안과 권한

04. 데이터 계층

05. 클라우드와 플랫폼

06. 배포와 운영

학습 목표

왜 중요한가

공통 구조 5계층

클라우드 서비스 대응 비교

AI/머신러닝 관점 GPU 가용성 비교

AI/머신러닝 관점 우선순위

멀티클라우드 전략

언제 멀티클라우드를 고려하는가

멀티클라우드 운영 시 핵심

시작 순서(권장)

체크리스트

다음 문서

00. 시작하기

01. 시스템 기초

02. 네트워크와 웹

03. 보안과 권한

04. 데이터 계층

05. 클라우드와 플랫폼

06. 배포와 운영

​학습 목표

​왜 중요한가

​공통 구조 5계층

​클라우드 서비스 대응 비교

​AI/머신러닝 관점 GPU 가용성 비교

​AI/머신러닝 관점 우선순위

​멀티클라우드 전략

​언제 멀티클라우드를 고려하는가

​멀티클라우드 운영 시 핵심

​시작 순서(권장)

​체크리스트

​다음 문서

학습 목표

왜 중요한가

공통 구조 5계층

클라우드 서비스 대응 비교

AI/머신러닝 관점 GPU 가용성 비교

AI/머신러닝 관점 우선순위

멀티클라우드 전략

언제 멀티클라우드를 고려하는가

멀티클라우드 운영 시 핵심

시작 순서(권장)

체크리스트

다음 문서