Skip to main content

논문 정보

  • 날짜: 2026-04-04
  • 카테고리: -
  • 우선순위 점수: 3.733

핵심 요약

SKILL0는 추론 시 외부 스킬을 검색하는 대신 모델 파라미터에 직접 내재화하는 인컨텍스트 강화학습 프레임워크입니다. 훈련 과정에서 스킬 컨텍스트를 점진적으로 제거하는 동적 커리큘럼을 통해 모델이 외부 도움 없이 제로샷으로 도구를 호출하고 과업을 수행하도록 학습합니다. 실험 결과 ALFWorld와 Search-QA 벤치마크에서 기존 RL 베이스라인 대비 성능 향상을 보였으며 토큰 효율성을 크게 개선했습니다.

학습자 관점 포인트

  • 우리 팀 영향: 외부 스킬 라이브러리에 의존하는 에이전트의 추론 비용과 지연 시간을 줄이면서도 높은 성능을 유지하는 경량화된 에이전트 구축에 기여할 수 있습니다.
  • 권장 액션: 실험
  • 액션 근거: 스킬 내재화를 통한 토큰 절감 효과와 제로샷 성능 향상이 검증되었으므로, 자체 에이전트 모델의 효율성 개선을 위해 적용 가능성을 테스트할 가치가 있습니다.

원문 링크

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.