Skip to main content

논문 정보

  • 날짜: 2026-02-27
  • 카테고리: -
  • 우선순위 점수: 0.667

핵심 요약

QueryBandits는 폐쇄형 LLM의 환각 현상을 완화하기 위해 온라인 학습 기반의 쿼리 재작성 전략을 선택하는 컨텍스트 밴딧 프레임워크입니다. 16개 QA 시나리오에서 톰슨 샘플링 기반 모델이 기본 모델 대비 87.5%의 승률을 기록하며 정적 정책보다 우수한 성능을 보였습니다. 모든 쿼리에 최적화된 단일 정책은 존재하지 않으며, 의미론적 특징에 따른 가변적 정책 적용이 필수적임을 입증했습니다.

학습자 관점 포인트

  • 우리 팀 영향: 폐쇄형 모델의 파라미터 수정 없이 프롬프트 최적화만으로 환각을 줄일 수 있는 실용적인 온라인 학습 구조를 제공합니다.
  • 권장 액션: 실험
  • 액션 근거: 고정된 프롬프트 대신 쿼리 특성에 맞춰 최적의 재작성 전략을 선택하는 방식이 실제 서비스의 환각 억제에 효과적인지 검증이 필요합니다.

원문 링크

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.