[2604.10688] SCOPE: Signal-Calibrated On-Policy Distillation Enhancement with Dual-Path Adaptive Weighting

논문 정보

날짜: 2026-04-14
카테고리: -
우선순위 점수: 0.767

핵심 요약

SCOPE는 대규모 언어 모델의 추론 정렬을 위해 정답 여부에 따라 두 가지 경로로 학습을 최적화하는 프레임워크입니다. 오답 경로는 교사 모델의 당혹도(Perplexity)를 활용해 신뢰할 수 있는 교정 정보에 집중하고, 정답 경로는 학생 모델의 당혹도를 기반으로 경계에 있는 샘플을 강화합니다. 그룹 수준의 정규화를 통해 프롬프트 난이도에 따른 가중치 불균형을 해소하여 추론 성능을 향상시킵니다.

학습자 관점 포인트

우리 팀 영향: 토큰 수준의 세밀한 보상 설계와 적응형 가중치 기법을 통해 모델의 추론 능력 고도화 및 학습 효율성 개선에 기여할 수 있습니다.
권장 액션: 실험
액션 근거: 기존 On-Policy 증류 방식의 한계인 균일한 감독 문제를 해결하고 6개 벤치마크에서 유의미한 성능 향상을 입증했기 때문입니다.

원문 링크

arXiv: https://arxiv.org/abs/2604.10688
Hugging Face Papers: https://huggingface.co/papers/2604.10688

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2604.11259] Mobile GUI Agent Privacy Personalization with Trajectory Induced Preference Optimization [2604.11547] Eliciting Medical Reasoning with Knowledge-enhanced Data Synthesis: A Semi-Supervised Reinforcement Learning Approach

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크