논문 정보
- 날짜:
2026-04-14 - 카테고리: -
- 우선순위 점수: 0.767
핵심 요약
SCOPE는 대규모 언어 모델의 추론 정렬을 위해 정답 여부에 따라 두 가지 경로로 학습을 최적화하는 프레임워크입니다. 오답 경로는 교사 모델의 당혹도(Perplexity)를 활용해 신뢰할 수 있는 교정 정보에 집중하고, 정답 경로는 학생 모델의 당혹도를 기반으로 경계에 있는 샘플을 강화합니다. 그룹 수준의 정규화를 통해 프롬프트 난이도에 따른 가중치 불균형을 해소하여 추론 성능을 향상시킵니다.학습자 관점 포인트
- 우리 팀 영향: 토큰 수준의 세밀한 보상 설계와 적응형 가중치 기법을 통해 모델의 추론 능력 고도화 및 학습 효율성 개선에 기여할 수 있습니다.
- 권장 액션: 실험
- 액션 근거: 기존 On-Policy 증류 방식의 한계인 균일한 감독 문제를 해결하고 6개 벤치마크에서 유의미한 성능 향상을 입증했기 때문입니다.
원문 링크
- arXiv: https://arxiv.org/abs/2604.10688
- Hugging Face Papers: https://huggingface.co/papers/2604.10688

