논문 정보
- 날짜:
2026-04-09
- 카테고리: -
- 우선순위 점수: 2.467
핵심 요약
멀티턴 LLM 에이전트의 RL 학습 시 엔트로피가 안정적임에도 불구하고 입력과 무관한 고정된 템플릿에 의존하는 ‘템플릿 붕괴’ 현상을 발견했습니다. 이를 진단하기 위해 엔트로피와 상호 정보량(MI)을 결합한 지표를 제안하고, 보상 분산을 활용한 SNR 기반 필터링 기법을 도입했습니다. 실험 결과 제안된 방법론은 계획, 수학, 웹 탐색 등 다양한 태스크에서 입력 의존성과 성능을 동시에 개선했습니다.
학습자 관점 포인트
- 우리 팀 영향: LLM 에이전트의 추론 품질을 엔트로피 외에 입력 데이터와의 상관관계(MI) 관점에서 정밀하게 모니터링하고 개선할 수 있는 프레임워크를 제공합니다.
- 권장 액션: 실험
- 액션 근거: 기존 엔트로피 지표의 한계를 극복하고 추론 붕괴를 방지하는 SNR 기반 필터링 기법의 실효성을 내부 에이전트 학습 파이프라인에서 검증할 가치가 있습니다.
원문 링크
학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.