논문 정보
- 날짜:
2026-03-07
- 카테고리: -
- 우선순위 점수: 1.3
핵심 요약
SLATE는 검색 증강 추론 과정에서 발생하는 보상 할당 문제를 해결하기 위해 잘린 단계별 샘플링(Truncated Step-Level Sampling)과 LLM 기반의 조밀한 보상을 도입한 프레임워크입니다. 공통 접두사를 공유하는 궤적 샘플링을 통해 정책 경사도의 분산을 이론적으로 최대 T배 감소시켰으며, 휴리스틱 대신 LLM 판사 보상을 사용하여 감독의 질을 높였습니다. 7개 벤치마크 실험 결과, 특히 멀티홉 추론과 소형 모델에서 기존의 희소 보상 및 프로세스 보상 방식보다 우수한 성능을 입증했습니다.
학습자 관점 포인트
- 우리 팀 영향: RAG 기반 추론 모델 학습 시 학습 효율성과 성능을 동시에 개선할 수 있는 고효율 샘플링 및 보상 설계 기법을 확보할 수 있습니다.
- 권장 액션: 실험
- 액션 근거: 이론적으로 증명된 분산 감소 효과와 더불어 소형 모델에서의 성능 향상 폭이 커 실무 적용 가능성이 높기 때문입니다.
원문 링크
학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.