[2604.03993] Can LLMs Learn to Reason Robustly under Noisy Supervision?

핵심 요약

본 논문은 검증 가능한 보상을 활용한 강화학습(RLVR) 과정에서 발생하는 노이즈 레이블 문제를 분석하고 이를 해결하기 위한 Online Label Refinement(OLR) 기법을 제안합니다. 연구진은 노이즈를 활성 및 비활성 유형으로 구분하고, 학습 초기 단계에서 클린 샘플과 노이즈 샘플의 정확도가 유사하게 상승하는 ‘Early Correctness Coherence’ 현상을 발견했습니다. OLR은 다수결 투표와 통계적 일관성을 바탕으로 학습 중 노이즈 레이블을 점진적으로 수정하여 수학 및 일반 추론 벤치마크에서 성능 향상을 입증했습니다.

학습자 관점 포인트

우리 팀 영향: 데이터셋 내 오답이나 노이즈가 포함된 상황에서도 모델의 추론 능력을 안정적으로 고도화할 수 있는 자가 수정 메커니즘을 확보할 수 있습니다.

권장 액션: 실험

액션 근거: 수학 및 과학 추론 학습 시 완벽한 정답 레이블을 확보하기 어려운 실제 환경에서 모델의 견고성을 높일 수 있는 실용적인 방법론이기 때문입니다.

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2604.03993] Can LLMs Learn to Reason Robustly under Noisy Supervision?

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크