GCP 기초
GCP는 프로젝트 단위 권한 분리와 데이터/분석 서비스 연계가 강점입니다. 초기에는 조직-폴더-프로젝트와 서비스 계정 권한 설계가 핵심입니다.학습 목표
- GCP 조직 구조(Organization/Folder/Project)를 이해합니다.
- 서비스 계정 기반 권한 모델을 설명할 수 있습니다.
- Vertex AI와 BigQuery를 활용한 ML 파이프라인 기본을 이해합니다.
- GPU/TPU 선택 기준과 비용 최적화를 적용할 수 있습니다.
왜 GCP인가
GCP는 BigQuery, Vertex AI, TPU 등 AI/ML에 특화된 서비스 연계가 강점입니다. 특히 데이터 분석 → 모델 학습 → 서빙까지의 파이프라인이 자연스럽게 연결됩니다. TPU 접근성도 주요 클라우드 중 가장 좋습니다.핵심 서비스 맵
| 영역 | 서비스 | AI/ML 용도 |
|---|---|---|
| 컴퓨팅 | Compute Engine, GKE, Cloud Run | 학습/서빙, 컨테이너, 서버리스 추론 |
| 저장소 | Cloud Storage, Persistent Disk, Filestore | 데이터셋, 체크포인트, 공유 파일 |
| 네트워크 | VPC, Cloud Load Balancing, Cloud DNS | 격리, 로드밸런싱, 이름 해석 |
| 보안 | IAM, Secret Manager, Cloud KMS | 권한, 비밀정보, 암호화 |
| 관측성 | Cloud Monitoring, Cloud Logging | 메트릭, 로그 |
| AI/ML | Vertex AI, BigQuery ML | ML 파이프라인, SQL 기반 ML |
| 데이터 | BigQuery, Dataflow, Pub/Sub | 분석, ETL, 스트리밍 |
GPU/TPU 비교
| 유형 | 모델 | 메모리 | 주요 용도 | 특징 |
|---|---|---|---|---|
GPU a2-highgpu-1g | A100 x1 | 40GB | 중형 학습 | 범용 GPU, CUDA 생태계 |
GPU a3-highgpu-8g | H100 x8 | 640GB | 대규모 학습 | 최고 성능 GPU |
TPU v4-8 | TPU v4 x4 | 128GB HBM | JAX/TensorFlow 학습 | Google 전용, 비용 효율 |
TPU v5e-4 | TPU v5e x4 | 64GB HBM | 추론, 경량 학습 | 추론 최적화 |
TPU는 JAX/TensorFlow 생태계에서 최적화됩니다. PyTorch 워크로드는 GPU를 권장합니다.
TPU는 Spot(선점형) 가격이 GPU보다 할인폭이 커서 대규모 학습에 비용 효율적입니다.
프로젝트 구조 설계
- 환경(prod/dev)과 기능(serving/training) 기준으로 프로젝트를 분리합니다.
- 공유 인프라(네트워크, 보안)는 별도 프로젝트로 관리합니다.
- 프로젝트 라벨로 비용/팀 추적을 강제합니다.
Vertex AI 연동 기본
BigQuery 활용
BigQuery는 데이터 분석과 피처 엔지니어링에서 강력합니다.시작 순서(권장)
실무 포인트
- 사람 계정 대신 서비스 계정 + 워크로드 아이덴티티 중심으로 자동화를 구성합니다.
- 프로젝트 라벨(
env,team,service)을 조직 정책으로 강제합니다. - GPU/TPU quota와 리전 가용성을 사전 검증합니다.
- 로그 보존 기간(기본 30일)과 내보내기 정책을 정의합니다.
- 선점형(Spot) VM으로 학습 비용을 절감합니다.
초보자 실수: 서비스 계정 키 파일 남용
초보자 실수: 서비스 계정 키 파일 남용
키 파일을 장기 보관하면 유출 리스크가 커집니다.
워크로드 아이덴티티(GKE)나 서비스 계정 가장(impersonation)을 우선 사용하세요.
키 파일이 필요하다면 만료 기한을 설정하고 정기 회전하세요.
Cloud Run과 GKE 선택 기준
Cloud Run과 GKE 선택 기준
단순 API와 빠른 배포, 자동 스케일링은 Cloud Run이 유리합니다.
GPU 필요, 복잡한 네트워크/스케줄링/상태 관리가 필요하면 GKE를 선택하세요.
비용 통제 핵심
비용 통제 핵심
프로젝트 라벨, 예산 알림, 유휴 리소스 정리 자동화를 함께 적용하세요.
Recommender API로 비용 최적화 제안을 자동으로 받을 수 있습니다.
BigQuery 비용 관리
BigQuery 비용 관리
BigQuery는 스캔한 데이터 양 기준으로 과금됩니다.
파티셔닝, 클러스터링을 적용하고,
SELECT * 대신 필요한 컬럼만 조회하세요.
슬롯 기반 요금제(Editions)도 대량 쿼리 시 비용 예측에 유리합니다.체크리스트
- 조직/폴더/프로젝트 경계가 정리됐나요?
- 서비스 계정 권한이 최소화됐나요?
- 워크로드 아이덴티티를 키 파일 대신 사용하고 있나요?
- GPU/TPU 리전/할당량을 확인했나요?
- 예산 및 비용 경보가 설정됐나요?
- BigQuery 파티셔닝/클러스터링이 적용됐나요?
- 로그 보존 기간과 내보내기 정책이 정의됐나요?

