논문 정보
- 날짜:
2026-04-05 - 카테고리: -
- 우선순위 점수: 3.9
핵심 요약
SKILL0는 추론 시 외부 스킬을 검색하는 대신 모델 파라미터에 직접 내재화하는 인컨텍스트 강화학습 프레임워크입니다. 훈련 과정에서 스킬 컨텍스트를 점진적으로 제거하는 동적 커리큘럼을 통해 모델이 외부 도움 없이 제로샷으로 도구를 호출하고 작업을 완수하도록 학습시킵니다. 실험 결과 ALFWorld와 Search-QA 벤치마크에서 기존 RL 베이스라인 대비 성능 향상을 보였으며 토큰 효율성을 크게 개선했습니다.학습자 관점 포인트
- 우리 팀 영향: 외부 스킬 라이브러리에 의존하는 에이전트의 추론 비용과 검색 노이즈 문제를 해결하여 경량화된 고성능 에이전트 구축에 기여할 수 있습니다.
- 권장 액션: 실험
- 액션 근거: 토큰 소모량을 줄이면서도 에이전트의 자율성을 높이는 스킬 내재화 방식이 실제 서비스 운영 효율화에 유용할 것으로 판단됩니다.
원문 링크
- arXiv: https://arxiv.org/abs/2604.02268
- Hugging Face Papers: https://huggingface.co/papers/2604.02268

