Skip to main content

논문 정보

  • 날짜: 2026-04-14
  • 카테고리: -
  • 우선순위 점수: 0.767

핵심 요약

SCOPE는 대규모 언어 모델의 추론 정렬을 위해 정답 여부에 따라 두 가지 경로로 학습을 최적화하는 프레임워크입니다. 오답 경로는 교사 모델의 당혹도(Perplexity)를 활용해 신뢰할 수 있는 교정 정보에 집중하고, 정답 경로는 학생 모델의 당혹도를 기반으로 경계에 있는 샘플을 강화합니다. 그룹 수준의 정규화를 통해 프롬프트 난이도에 따른 가중치 불균형을 해소하여 추론 성능을 향상시킵니다.

학습자 관점 포인트

  • 우리 팀 영향: 토큰 수준의 세밀한 보상 설계와 적응형 가중치 기법을 통해 모델의 추론 능력 고도화 및 학습 효율성 개선에 기여할 수 있습니다.
  • 권장 액션: 실험
  • 액션 근거: 기존 On-Policy 증류 방식의 한계인 균일한 감독 문제를 해결하고 6개 벤치마크에서 유의미한 성능 향상을 입증했기 때문입니다.

원문 링크

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.