Skip to main content
배움 에이아이 home page
Search...
⌘K
문의하기
Search...
Navigation
03. 정렬(Alignment)
정렬 (Alignment)
Setup
IT Essentials
Python
Data Analysis
Machine Learning
Deep Learning
Vision
NLP
RAG
Agent
Fine-Tuning
LLMOps
AI Tools
Trend
Homepage
GitHub
00. 시작하기
Fine-Tuning 개요
파인튜닝 개요
언제 파인튜닝할까
01. 데이터셋 설계
데이터셋 설계
Instruction 데이터 포맷
Preference 데이터 설계
데이터 품질 점검
02. SFT와 PEFT
SFT와 PEFT
LoRA와 QLoRA
Unsloth + TRL 워크플로우
03. 정렬(Alignment)
정렬 (Alignment)
DPO와 ORPO
RLHF 개요
04. 평가와 배포
평가와 배포
벤치마크와 사람 평가
체크포인트 머지와 서빙
On this page
정렬 (Alignment)
무엇을 정렬하는가
학습 경로
실무 적용 순서
03. 정렬(Alignment)
정렬 (Alignment)
Copy page
모델 응답 선호를 반영하는 DPO/ORPO/RLHF의 개념과 적용 시점을 다룹니다.
Copy page
정렬 (Alignment)
SFT가 “기본 실력”을 맞추는 단계라면, 정렬은 “선호와 정책”을 맞추는 단계입니다.
무엇을 정렬하는가
더 선호되는 답변 스타일
안전 정책 준수 행동
장문/단문, 근거 제시 방식 같은 응답 성향
학습 경로
DPO와 ORPO
보상모델 없이 선호 데이터를 직접 학습하는 방식 비교
RLHF 개요
전통적인 보상모델 기반 정렬 파이프라인 요약
실무 적용 순서
SFT 안정화
선호 데이터 수집
DPO/ORPO 소규모 실험
안전성/일관성 평가
온라인 검증
대부분의 팀은 RLHF 전체 스택보다 DPO/ORPO부터 시작하는 편이 운영 비용이 낮습니다.
Unsloth + TRL 워크플로우
DPO와 ORPO