LoRA와 QLoRA
LoRA는 가중치 전체를 학습하지 않고, 작은 저랭크 행렬만 학습해 비용을 줄이는 방식입니다. QLoRA는 여기에 양자화를 결합해 GPU 메모리 사용량을 더 낮춥니다.개념 비교
| 항목 | LoRA | QLoRA |
|---|---|---|
| 핵심 아이디어 | 저랭크 어댑터 학습 | 저랭크 + 베이스 가중치 양자화 |
| 메모리 사용 | 중간 | 낮음 |
| 학습 속도 | 빠름 | 환경에 따라 다름 |
| 구현 난이도 | 낮음 | 중간 |
| 권장 상황 | 단순/빠른 실험 | VRAM 제약이 큰 환경 |
주요 하이퍼파라미터
| 파라미터 | 의미 | 실무 팁 |
|---|---|---|
r | LoRA 랭크 | 너무 크면 과적합, 너무 작으면 표현력 부족 |
alpha | 스케일링 계수 | 보통 r과 함께 조정 |
target_modules | 어댑터 적용 레이어 | attention projection부터 시작 |
dropout | 어댑터 드롭아웃 | 작은 값으로 과적합 완화 |
선택 기준
- GPU 메모리가 여유롭고 반복 실험이 필요하면 LoRA
- 단일 GPU에서 큰 모델을 다뤄야 하면 QLoRA
- 결과 안정성을 먼저 본 뒤 비용 최적화를 진행
주의할 점
- 양자화 설정이 맞지 않으면 학습 안정성이 떨어질 수 있습니다
- 체크포인트 저장 형식이 팀 표준과 맞는지 확인하세요
- 추론 환경에서 어댑터 로딩/머지 방식도 사전에 고정하세요

