논문 정보
- 날짜:
2026-02-28 - 카테고리: -
- 우선순위 점수: 0.667
핵심 요약
QueryBandits는 폐쇄형 LLM의 환각 현상을 완화하기 위해 온라인 학습 기반의 컨텍스트 밴딧 프레임워크를 제안합니다. 쿼리 재작성 전략을 동적으로 선택하여 단일 고정 정책의 한계를 극복하며, 16개 QA 시나리오에서 기본 모델 대비 87.5%의 승률을 기록했습니다. 이 방식은 모델 가중치 수정 없이 추론 단계의 쿼리 최적화만으로 성능을 개선합니다.학습자 관점 포인트
- 우리 팀 영향: API 기반 폐쇄형 모델을 사용하는 환경에서 추가 학습 없이 쿼리 최적화만으로 환각을 줄이는 실용적인 방법론을 제공합니다.
- 권장 액션: 실험
- 액션 근거: 고정된 프롬프트 전략보다 동적인 쿼리 재작성이 환각 억제에 효과적임을 입증했으므로 내부 벤치마크 적용 가치가 높습니다.
원문 링크
- arXiv: https://arxiv.org/abs/2602.20332
- Hugging Face Papers: https://huggingface.co/papers/2602.20332

