[2603.25562] Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes

논문 정보
핵심 요약
학습자 관점 포인트
원문 링크

논문 정보

날짜: 2026-03-29
카테고리: -
우선순위 점수: 1.333

핵심 요약

본 논문은 온폴리시 증류(OPD)가 긴 호흡의 생성 작업에서 토큰 단위 신호의 불균형과 교사 모델의 신뢰도 저하로 인해 불안정해지는 문제를 분석합니다. 이론적으로 토큰 단위 OPD가 시퀀스 단위보다 편향되어 있으나 분산 제어에 유리함을 밝히고, 이를 개선하기 위한 truncated reverse-KL 기법을 제안합니다. 수학적 추론 및 에이전트 작업에서 제안된 방식이 기존 방식보다 안정적인 최적화와 높은 성능을 보임을 입증했습니다.

학습자 관점 포인트

우리 팀 영향: LLM 포스트 트레이닝 시 온폴리시 증류의 안정성을 높여 추론 모델의 성능을 효율적으로 개선할 수 있는 방법론을 제공합니다.
권장 액션: 실험
액션 근거: 기존 온폴리시 증류의 고질적인 불안정성 문제를 해결하는 구체적인 가이드라인과 개선된 목적 함수를 제시하고 있어 실제 학습에 적용 가치가 높습니다.

원문 링크

arXiv: https://arxiv.org/abs/2603.25562
Hugging Face Papers: https://huggingface.co/papers/2603.25562

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2603.24517] AVO: Agentic Variation Operators for Autonomous Evolutionary Search [2603.25551] Voxtral TTS

00. 시작하기

01. AI IDE

02. IDE 확장/플러그인

03. CLI/멀티 플랫폼

04. 에이전트 하네스

05. AI 웹 빌더

06. 워크플로우 플랫폼

08. 일일 리뷰 리포트

07. 논문 트렌드

[2603.25562] Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크

00. 시작하기

01. AI IDE

02. IDE 확장/플러그인

03. CLI/멀티 플랫폼

04. 에이전트 하네스

05. AI 웹 빌더

06. 워크플로우 플랫폼

08. 일일 리뷰 리포트

07. 논문 트렌드

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크