Skip to main content

논문 정보

  • 날짜: 2026-03-25
  • 카테고리: -
  • 우선순위 점수: 0.4

핵심 요약

AutoGaze는 비디오의 시공간적 중복성을 제거하기 위해 ViT 또는 MLLM 처리 전 최소한의 멀티스케일 패치만을 선택하는 경량 모듈입니다. 자기회귀 방식과 강화학습을 통해 토큰 수를 4배에서 100배까지 줄여 4K 해상도의 1,000프레임 비디오 처리를 가능하게 합니다. VideoMME 등 주요 벤치마크에서 우수한 성능을 보였으며, 고해상도 장기 비디오 QA를 위한 HLVid 데이터셋을 함께 제안했습니다.

학습자 관점 포인트

  • 우리 팀 영향: 고해상도 장기 비디오 처리 시 발생하는 연산 비용 문제를 획기적으로 개선하여 효율적인 멀티모달 모델 서비스 구축에 기여할 수 있습니다.
  • 권장 액션: 실험
  • 액션 근거: 토큰 수를 최대 100배까지 절감하면서도 성능 저하 없이 4K 비디오를 처리할 수 있다는 점에서 실무 적용 가치가 높습니다.

원문 링크

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.