[2604.00626] A Survey of On-Policy Distillation for Large Language Models

핵심 요약

본 논문은 소형 언어 모델의 성능 향상을 위해 학생 모델이 직접 생성한 데이터에 대해 피드백을 받는 온폴리시 증류(OPD) 기술을 체계적으로 정리한 서베이 논문입니다. 기존 오프폴리시 방식의 노출 편향 문제를 해결하기 위해 f-divergence 프레임워크를 제안하고 피드백 신호, 교사 모델 접근성, 손실 함수 입도에 따라 방법론을 분류했습니다. 산업계 적용 사례 분석과 함께 증류 스케일링 법칙 및 에이전트 수준의 증류 등 향후 연구 방향을 제시합니다.

학습자 관점 포인트

우리 팀 영향: 추론 및 에이전트 성능 최적화를 위해 기존의 정적 데이터 학습 대신 학생 모델의 실시간 생성 결과물을 활용한 피드백 루프 구축의 이론적 근거로 활용할 수 있습니다.

권장 액션: 도입 검토

액션 근거: 노출 편향 문제를 해결하고 소형 모델의 추론 능력을 극대화할 수 있는 최신 온폴리시 기법들을 체계적으로 분류하고 있어 기술 스택 고도화에 유용합니다.

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2604.00626] A Survey of On-Policy Distillation for Large Language Models

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크