[2602.20913] LongVideo-R1: Smart Navigation for Low-cost Long Video Understanding

논문 정보

날짜: 2026-03-02
카테고리: -
우선순위 점수: 1.4

핵심 요약

LongVideo-R1은 저비용으로 긴 비디오를 이해하기 위해 능동적인 추론 기능을 갖춘 멀티모달 LLM 에이전트입니다. 계층적 비디오 요약을 기반으로 질의 응답에 필요한 핵심 클립을 반복적으로 탐색하며, 충분한 정보를 얻으면 탐색을 즉시 중단하여 효율성을 극대화합니다. Qwen-3-8B 모델을 기반으로 SFT와 강화학습(RL)을 거쳐 최적의 클립 탐색 경로를 학습하도록 설계되었습니다.

학습자 관점 포인트

우리 팀 영향: 비디오 전체를 처리하지 않고 필요한 부분만 선택적으로 분석하는 에이전트 구조를 통해 긴 영상 처리 비용을 획기적으로 절감할 수 있습니다.
권장 액션: 실험
액션 근거: 제시된 추론 기반의 능동적 탐색 방식이 기존의 전수 조사 방식보다 효율적이며 오픈소스로 공개되어 검증이 용이하기 때문입니다.

원문 링크

arXiv: https://arxiv.org/abs/2602.20913
Hugging Face Papers: https://huggingface.co/papers/2602.20913

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2602.24286] CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation [2602.22647] Vectorizing the Trie: Efficient Constrained Decoding for LLM-based Generative Retrieval on Accelerators

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크