논문 정보
- 날짜:
2026-03-26
- 카테고리: -
- 우선순위 점수: 2.233
핵심 요약
EVA는 비디오의 긴 토큰 시퀀스와 중복 프레임 문제를 해결하기 위해 ‘인식 전 계획’ 전략을 사용하는 효율적인 강화학습 기반 에이전트 프레임워크입니다. MLLM이 스스로 무엇을 언제 어떻게 볼지 결정하는 반복적인 추론 과정을 거치며, SFT, KTO, GRPO로 구성된 3단계 학습 파이프라인을 통해 훈련됩니다. 6개의 벤치마크에서 기존 MLLM 대비 6-12%, 이전 적응형 에이전트 대비 1-3%의 성능 향상을 입증했습니다.
학습자 관점 포인트
- 우리 팀 영향: 비디오 데이터 처리 시 불필요한 연산을 줄이고 효율적인 추론이 가능한 에이전트 구조를 도입하여 긴 영상 분석 성능을 개선할 수 있습니다.
- 권장 액션: 실험
- 액션 근거: GRPO를 포함한 최신 강화학습 기법을 비디오 에이전트에 적용하여 효율성과 성능을 동시에 확보한 방법론이므로 재현 가치가 높습니다.
원문 링크
학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.