논문 정보
- 날짜:
2026-04-03 - 카테고리: -
- 우선순위 점수: 3.433
핵심 요약
SKILL0는 추론 시 외부 스킬을 검색하는 대신 모델 파라미터에 직접 내재화하는 인컨텍스트 강화학습 프레임워크입니다. 훈련 과정에서 스킬 컨텍스트를 점진적으로 제거하는 동적 커리큘럼을 통해 모델이 외부 도움 없이도 제로샷 자율 행동을 수행하도록 유도합니다. 실험 결과 ALFWorld와 Search-QA 벤치마크에서 기존 RL 베이스라인 대비 성능 향상과 토큰 효율성을 동시에 입증했습니다.학습자 관점 포인트
- 우리 팀 영향: 에이전트의 외부 스킬 의존도를 낮추고 추론 비용을 절감하면서도 높은 성능을 유지하는 경량화된 자율 에이전트 개발에 기여할 수 있습니다.
- 권장 액션: 실험
- 액션 근거: 검색 노이즈와 토큰 오버헤드 문제를 해결하는 스킬 내재화 방식이 실제 에이전트 서비스의 효율성 개선에 유효한지 검증이 필요합니다.
원문 링크
- arXiv: https://arxiv.org/abs/2604.02268
- Hugging Face Papers: https://huggingface.co/papers/2604.02268

