논문 정보
- 날짜:
2026-03-01 - 카테고리: -
- 우선순위 점수: 2.2
핵심 요약
강화학습 기반 LLM 에이전트의 탐색 병목 현상을 해결하기 위해 메모리 증강형 하이브리드 최적화 프레임워크인 EMPO^2를 제안합니다. 이 모델은 온-폴리시와 오프-폴리시 업데이트를 결합하여 메모리 활용 시의 성능 향상과 메모리 미사용 시의 견고함을 동시에 확보했습니다. ScienceWorld와 WebShop 벤치마크에서 기존 GRPO 대비 유의미한 성능 향상을 보였으며, OOD 환경에서도 뛰어난 적응력을 입증했습니다.학습자 관점 포인트
- 우리 팀 영향: 메모리 기반 탐색과 하이브리드 RL 최적화 기법을 통해 복잡한 환경에서 에이전트의 문제 해결 능력을 강화할 수 있습니다.
- 권장 액션: 실험
- 액션 근거: 기존 GRPO 대비 높은 성능 향상 폭과 OOD 환경에서의 적응력이 검증되어 실제 에이전트 서비스 적용 가능성이 높습니다.
원문 링크
- arXiv: https://arxiv.org/abs/2602.23008
- Hugging Face Papers: https://huggingface.co/papers/2602.23008

