[2603.25562] Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes

논문 정보
핵심 요약
학습자 관점 포인트
원문 링크

논문 정보

날짜: 2026-03-27
카테고리: -
우선순위 점수: 1.233

핵심 요약

본 논문은 온폴리시 증류(OPD)가 긴 시퀀스 생성 시 토큰 단위 신호의 불균형과 교사 모델의 가이드 불안정성으로 인해 실패하는 원인을 분석합니다. 이론적으로 토큰 단위 OPD는 편향되어 있으나 분산이 낮음을 입증하고, 이를 개선하기 위해 Top-K 로컬 서포트 매칭과 특수 토큰 마스킹을 제안합니다. 실험 결과 수학적 추론 및 에이전트 작업에서 기존 방식보다 안정적인 최적화와 향상된 성능을 보였습니다.

학습자 관점 포인트

우리 팀 영향: LLM 포스트 트레이닝 과정에서 온폴리시 증류 기법의 안정성을 높여 추론 모델의 성능을 효율적으로 개선할 수 있습니다.
권장 액션: 실험
액션 근거: 기존 온폴리시 증류의 고질적인 불안정성 문제를 해결하는 구체적인 방법론과 이론적 근거를 제시하고 있어 재현 가치가 높습니다.

원문 링크

arXiv: https://arxiv.org/abs/2603.25562
Hugging Face Papers: https://huggingface.co/papers/2603.25562

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2603.25502] RealRestorer: Towards Generalizable Real-World Image Restoration with Large-Scale Image Editing Models [2603.24755] SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks

00. 시작하기

01. AI IDE

02. IDE 확장/플러그인

03. CLI/멀티 플랫폼

04. 에이전트 하네스

05. AI 웹 빌더

06. 워크플로우 플랫폼

08. 일일 리뷰 리포트

07. 논문 트렌드

[2603.25562] Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크

00. 시작하기

01. AI IDE

02. IDE 확장/플러그인

03. CLI/멀티 플랫폼

04. 에이전트 하네스

05. AI 웹 빌더

06. 워크플로우 플랫폼

08. 일일 리뷰 리포트

07. 논문 트렌드

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크