Skip to main content

논문 정보

  • 날짜: 2026-04-07
  • 카테고리: -
  • 우선순위 점수: 1.267

핵심 요약

SandMLE는 머신러닝 엔지니어링(MLE) 에이전트 학습 시 발생하는 긴 실행 시간 문제를 해결하기 위해 마이크로 스케일의 데이터셋을 활용한 합성 샌드박스 환경을 생성합니다. 이를 통해 실행 시간을 13배 이상 단축하여 MLE 도메인에서 온폴리시 강화학습(RL)이 가능하도록 지원합니다. 실험 결과, Qwen3 모델군에서 SFT 대비 최대 66.9%의 성능 향상을 보였으며 미학습 환경에서도 높은 일반화 성능을 입증했습니다.

학습자 관점 포인트

  • 우리 팀 영향: MLE 에이전트의 학습 및 평가 비용을 획기적으로 낮추어 효율적인 온폴리시 강화학습 파이프라인 구축에 기여할 수 있습니다.
  • 권장 액션: 실험
  • 액션 근거: 데이터셋 크기 축소를 통한 학습 가속화 기법이 실제 에이전트 성능 향상으로 이어짐을 입증했으므로 내부 벤치마크 적용 가능성을 검토할 가치가 있습니다.

원문 링크

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.