논문 정보
- 날짜:
2026-03-29
- 카테고리: -
- 우선순위 점수: 1.333
핵심 요약
본 논문은 온폴리시 증류(OPD)가 긴 호흡의 생성 작업에서 토큰 단위 신호의 불균형과 교사 모델의 신뢰도 저하로 인해 불안정해지는 문제를 분석합니다. 이론적으로 토큰 단위 OPD가 시퀀스 단위보다 편향되어 있으나 분산 제어에 유리함을 밝히고, 이를 개선하기 위한 truncated reverse-KL 기법을 제안합니다. 수학적 추론 및 에이전트 작업에서 제안된 방식이 기존 방식보다 안정적인 최적화와 높은 성능을 보임을 입증했습니다.
학습자 관점 포인트
- 우리 팀 영향: LLM 포스트 트레이닝 시 온폴리시 증류의 안정성을 높여 추론 모델의 성능을 효율적으로 개선할 수 있는 방법론을 제공합니다.
- 권장 액션: 실험
- 액션 근거: 기존 온폴리시 증류의 고질적인 불안정성 문제를 해결하는 구체적인 가이드라인과 개선된 목적 함수를 제시하고 있어 실제 학습에 적용 가치가 높습니다.
원문 링크
학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.