학습 목표
- 대조 학습의 핵심 아이디어와 양성/음성 쌍 개념을 이해한다
- InfoNCE Loss의 수학적 구조를 설명할 수 있다
- SimCLR의 자기 지도 학습 프레임워크를 이해한다
- CLIP의 멀티모달 대조 학습 방식을 안다
왜 중요한가
대조 학습(Contrastive Learning)은 레이블 없이 의미적으로 유사한 데이터는 가깝게, 다른 데이터는 멀게 배치하는 표현을 학습합니다. 자기 지도 학습(Self-Supervised Learning)의 핵심 패러다임이며, CLIP, Sentence-BERT, E5 등 현대 임베딩 모델의 학습 기반입니다.핵심 아이디어
| 용어 | 설명 | 예시 |
|---|---|---|
| 앵커(Anchor) | 기준 샘플 | 고양이 이미지 |
| 양성 쌍(Positive) | 앵커와 유사한 샘플 | 같은 고양이의 다른 뷰 |
| 음성 쌍(Negative) | 앵커와 다른 샘플 | 자동차 이미지 |
InfoNCE Loss
대조 학습의 표준 손실 함수입니다. 양성 쌍의 유사도를 최대화하고, 음성 쌍의 유사도를 최소화합니다.- : 양성 쌍의 임베딩
- : 온도 파라미터(Temperature) — 분포의 날카로움 조절
- : 코사인 유사도
온도 파라미터의 역할
| 값 | 효과 | 결과 |
|---|---|---|
| 작음 (0.01) | 분포가 날카로움 | 어려운 음성 쌍에 집중 |
| 보통 (0.07) | 균형 잡힌 학습 | 일반적으로 사용 |
| 큼 (1.0) | 분포가 부드러움 | 균등한 학습 |
SimCLR (2020)
Google의 Chen et al.이 제안한 자기 지도 대조 학습 프레임워크입니다. 하나의 이미지에서 두 가지 증강(Augmentation)을 적용하여 양성 쌍을 만듭니다.CLIP (2021)
OpenAI의 Radford et al.이 제안한 멀티모달 대조 학습 모델입니다. 이미지와 텍스트를 같은 임베딩 공간에 매핑합니다.CLIP의 대조 학습
배치 내 개의 (이미지, 텍스트) 쌍에서:- 양성 쌍: 매칭되는 이미지-텍스트 (개)
- 음성 쌍: 매칭되지 않는 이미지-텍스트 (개)
CLIP의 제로샷 분류
CLIP은 학습하지 않은 클래스도 텍스트 프롬프트로 분류할 수 있습니다.대조 학습 변형 비교
| 방법 | 양성 쌍 생성 | 음성 쌍 | 모달리티 | 대표 모델 |
|---|---|---|---|---|
| SimCLR | 데이터 증강 | 배치 내 다른 샘플 | 단일 (이미지) | SimCLR, BYOL |
| CLIP | 이미지-텍스트 매칭 | 배치 내 비매칭 | 멀티모달 | CLIP, SigLIP |
| Sentence-BERT | 문장 쌍 라벨 | 배치 내 다른 문장 | 단일 (텍스트) | SBERT, E5 |
실무 활용
| 학습 방식 | 활용 | 연결 탭 |
|---|---|---|
| 자기 지도 사전학습 | 레이블 없이 범용 표현 학습 | Fine-Tuning |
| 멀티모달 정렬 | 이미지-텍스트 검색, 제로샷 분류 | Vision |
| 임베딩 모델 학습 | 시맨틱 검색, RAG 리트리버 | RAG |
대조 학습 vs 생성 모델 사전학습
대조 학습 vs 생성 모델 사전학습
대조 학습(SimCLR, CLIP)은 판별적(Discriminative) 표현을 학습하고, 생성 모델(GPT, MAE)은 생성적(Generative) 사전학습을 합니다. 대조 학습은 유사도 기반 태스크(검색, 분류)에 강하고, 생성 모델은 텍스트/이미지 생성에 강합니다. 최근에는 두 방식을 결합하는 연구도 활발합니다.
참고 논문
| 논문 | 학회/연도 | 핵심 기여 |
|---|---|---|
| A Simple Framework for Contrastive Learning - SimCLR (Chen et al.) | ICML 2020 | 자기 지도 대조 학습 프레임워크 |
| Learning Transferable Visual Models From Natural Language Supervision - CLIP (Radford et al.) | ICML 2021 | 이미지-텍스트 멀티모달 대조 학습 |
| Representation Learning with Contrastive Predictive Coding - CPC (van den Oord et al.) | 2018 | InfoNCE Loss 제안 |
체크리스트
- 양성 쌍과 음성 쌍의 역할을 설명할 수 있다
- InfoNCE Loss의 구조와 온도 파라미터의 역할을 안다
- SimCLR의 데이터 증강 기반 자기 지도 학습을 이해한다
- CLIP의 멀티모달 대조 학습과 제로샷 분류를 설명할 수 있다
다음 문서
생성 모델
오토인코더, VAE, GAN, Diffusion 모델
RAG 탭
임베딩을 활용한 벡터 검색 파이프라인

