Skip to main content

LoRA와 QLoRA

LoRA는 가중치 전체를 학습하지 않고, 작은 저랭크 행렬만 학습해 비용을 줄이는 방식입니다. QLoRA는 여기에 양자화를 결합해 GPU 메모리 사용량을 더 낮춥니다.

개념 비교

항목LoRAQLoRA
핵심 아이디어저랭크 어댑터 학습저랭크 + 베이스 가중치 양자화
메모리 사용중간낮음
학습 속도빠름환경에 따라 다름
구현 난이도낮음중간
권장 상황단순/빠른 실험VRAM 제약이 큰 환경

주요 하이퍼파라미터

파라미터의미실무 팁
rLoRA 랭크너무 크면 과적합, 너무 작으면 표현력 부족
alpha스케일링 계수보통 r과 함께 조정
target_modules어댑터 적용 레이어attention projection부터 시작
dropout어댑터 드롭아웃작은 값으로 과적합 완화

선택 기준

  • GPU 메모리가 여유롭고 반복 실험이 필요하면 LoRA
  • 단일 GPU에서 큰 모델을 다뤄야 하면 QLoRA
  • 결과 안정성을 먼저 본 뒤 비용 최적화를 진행

주의할 점

  • 양자화 설정이 맞지 않으면 학습 안정성이 떨어질 수 있습니다
  • 체크포인트 저장 형식이 팀 표준과 맞는지 확인하세요
  • 추론 환경에서 어댑터 로딩/머지 방식도 사전에 고정하세요