Skip to main content

논문 정보

  • 날짜: 2026-03-02
  • 카테고리: -
  • 우선순위 점수: 0.767

핵심 요약

기존 REC 벤치마크가 짧은 표현과 적은 방해 요소로 인해 모델의 진정한 시각적 추론 능력을 측정하지 못한다는 점을 지적하며 Ref-Adv 데이터셋을 제안합니다. Ref-Adv는 언어적 복잡성과 부정 표현, 유사한 방해 요소를 포함하여 모델이 지름길(shortcut)을 이용하지 못하도록 설계되었습니다. 실험 결과, 기존 벤치마크에서 고성능을 보인 최신 MLLM들이 Ref-Adv에서는 성능이 급격히 하락하며 시각적 추론의 한계를 드러냈습니다.

학습자 관점 포인트

  • 우리 팀 영향: 우리 팀의 멀티모달 모델 평가 시 단순 객체 검출을 넘어 복잡한 언어 지시문에 대한 추론 성능을 정밀하게 검증하는 지표로 활용할 수 있습니다.
  • 권장 액션: 실험
  • 액션 근거: 기존 벤치마크의 한계를 극복한 고난도 데이터셋이므로, 현재 개발 중인 모델의 시각적 추론 및 그라운딩 성능을 객관적으로 파악하기 위해 테스트가 필요합니다.

원문 링크

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.