논문 리뷰 2026-03-05
Daily Paper Review - 2026-03-05
수집 요약
Top Papers
1) Heterogeneous Agent Collaborative Reinforcement Learning
2) T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning
3) Helios: Real Real-Time Long Video Generation Model
4) Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory
5) SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration
6) MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning
7) Proact-VL: A Proactive VideoLLM for Real-Time AI Companions
8) MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models
9) ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors
10) Phi-4-reasoning-vision-15B Technical Report
11) EmbodiedSplat: Online Feed-Forward Semantic 3DGS for Open-Vocabulary 3D Scene Understanding
12) BeamPERL: Parameter-Efficient RL with Verifiable Rewards Specializes Compact LLMs for Structured Beam Mechanics Reasoning
13) MIBURI: Towards Expressive Interactive Gesture Synthesis
14) Specificity-aware reinforcement learning for fine-grained open-world classification
15) CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video
16) AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Large Vision-Language Models
17) RIVER: A Real-Time Interaction Benchmark for Video LLMs
18) InfinityStory: Unlimited Video Generation with World Consistency and Character-Aware Shot Transitions
19) GroupEnsemble: Efficient Uncertainty Estimation for DETR-based Object Detection
20) HDINO: A Concise and Efficient Open-Vocabulary Detector
보류/무시

논문 리뷰 2026-03-05

기준일: 2026-03-05
수집 건수(중복 제거): 20
발행 Top N: 20
원본 리포트: trend/reports/daily/2026-03-05.md
마지막 갱신: 2026-03-06 00:01:24

Daily Paper Review - 2026-03-05

수집 요약

총 수집(중복 제거 후): 20
발행 Top N: 20
LLM 요약 성공: 19
LLM 요약 폴백: 1

Top Papers

1) Heterogeneous Agent Collaborative Reinforcement Learning

arXiv: https://arxiv.org/abs/2603.02604
HF: https://huggingface.co/papers/2603.02604
카테고리: -
테마: Agent, LLM, Reasoning
우선순위 점수: 4.633
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: HACRL은 이질적인 에이전트들이 훈련 과정에서 검증된 롤아웃을 공유하여 상호 학습하고, 추론 시에는 독립적으로 작동하는 새로운 강화학습 패러다임입니다. 이를 구현한 HACPO 알고리즘은 편향되지 않은 이득 추정과 최적화 정확성을 보장하는 네 가지 메커니즘을 통해 에이전트 간의 능력 차이와 분포 변화 문제를 해결합니다. 실험 결과, HACPO는 기존 GSPO 대비 절반의 비용으로 모든 참여 에이전트의 성능을 평균 3.3% 향상시켰습니다.
우리 팀 영향: 다양한 크기와 성능을 가진 모델들을 협력적으로 학습시켜 자원 효율성을 높이고 전체적인 추론 능력을 상향 평준화할 수 있습니다.
액션: 실험
액션 근거: 기존 방식보다 적은 비용으로 이질적 모델 간의 상호 성능 향상을 입증했으므로, 내부 에이전트 최적화에 적용 가능성을 확인할 가치가 있습니다.
요약 신뢰도(모델): 0.92
리뷰 메모:

2) T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning

arXiv: https://arxiv.org/abs/2603.03790
HF: https://huggingface.co/papers/2603.03790
카테고리: -
테마: Reasoning, Fine-Tuning, Benchmark
우선순위 점수: 3.6
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 인간의 정보 구조화 방식을 모방하여 모델이 중간 텍스트 구조를 생성하도록 유도하는 Structure of Thought(SoT) 프롬프팅 기법을 제안했습니다. 6개 과학 분야와 32개 구조 유형을 포함하는 T2S-Bench 벤치마크를 구축하여 모델의 텍스트 구조화 능력을 정밀하게 측정했습니다. 실험 결과 SoT 기법과 T2S-Bench 기반 미세 조정을 통해 다양한 텍스트 처리 작업에서 유의미한 성능 향상을 확인했습니다.
우리 팀 영향: 복잡한 과학 기술 문서의 정보를 구조화하여 추출하거나 추론 성능을 높여야 하는 프로젝트에 SoT 기법을 적용해 볼 수 있습니다.
액션: 실험
액션 근거: 프롬프팅만으로도 평균 5.7%의 성능 향상을 보였으며, 구조화된 데이터 추출 능력이 모델의 전반적인 추론 성능과 직결됨을 시사하기 때문입니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

3) Helios: Real Real-Time Long Video Generation Model

arXiv: https://arxiv.org/abs/2603.04379
HF: https://huggingface.co/papers/2603.04379
카테고리: -
테마: General
우선순위 점수: 3.167
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: Helios는 단일 NVIDIA H100 GPU에서 19.5 FPS의 속도로 분 단위의 긴 영상을 생성할 수 있는 14B 규모의 자기회귀 확산 모델입니다. 별도의 가속 기술 없이도 실시간 생성을 지원하며, 훈련 중 드리프팅 현상을 시뮬레이션하는 전략을 통해 장기 영상 생성의 안정성을 확보했습니다. 효율적인 컨텍스트 압축과 인프라 최적화를 통해 1.3B 모델 수준의 연산 비용으로 고품질의 T2V, I2V, V2V 작업을 수행합니다.
우리 팀 영향: 고성능 대형 비디오 모델을 단일 GPU에서 실시간으로 구동할 수 있는 최적화 기법은 서비스 비용 절감 및 사용자 경험 개선에 직접적인 영감을 줄 수 있습니다.
액션: 도입 검토
액션 근거: 추가적인 가속 기술 없이도 14B 모델의 실시간 추론과 장기 영상 안정성을 동시에 달성한 기술적 성과가 매우 높기 때문입니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

4) Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory

arXiv: https://arxiv.org/abs/2603.04257
HF: https://huggingface.co/papers/2603.04257
카테고리: -
테마: Agent, LLM, Reasoning
우선순위 점수: 2.033
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: Memex는 긴 작업 과정에서 발생하는 컨텍스트 윈도우 한계를 극복하기 위해 요약된 인덱스와 외부 데이터베이스를 결합한 인덱스 경험 메모리 메커니즘을 제안합니다. MemexRL 강화학습 프레임워크를 통해 에이전트는 과거의 증거를 손실 없이 보존하면서 필요한 시점에만 상세 정보를 복원하는 최적의 읽기/쓰기 전략을 학습합니다. 실험 결과, 기존의 단순 요약 방식보다 적은 컨텍스트를 사용하면서도 긴 호흡의 작업에서 높은 성공률을 보였습니다.
우리 팀 영향: 긴 컨텍스트 처리가 필요한 에이전트 개발 시, 정보 손실을 최소화하면서 연산 효율을 높이는 메모리 관리 구조로 활용 가능합니다.
액션: 실험
액션 근거: 이론적 분석과 실험을 통해 긴 작업에서의 효율성이 입증되었으므로, 자체 에이전트 프레임워크에 인덱스 기반 메모리 도입 가능성을 검증할 가치가 있습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

5) SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration

arXiv: https://arxiv.org/abs/2603.03823
HF: https://huggingface.co/papers/2603.03823
카테고리: -
테마: Agent, LLM, Benchmark
우선순위 점수: 1.833
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: SWE-CI는 정적인 버그 수정을 넘어 지속적 통합(CI) 루프를 기반으로 코드베이스의 장기적 유지보수 능력을 평가하는 새로운 벤치마크입니다. 실제 저장소의 평균 233일간의 진화 이력과 71개의 연속 커밋을 포함하는 100개의 태스크로 구성되어 에이전트의 반복적인 분석 및 코딩 능력을 측정합니다. 기존 SWE-bench와 달리 동적이고 장기적인 기능적 정확성과 유지보수성을 평가하는 데 중점을 둡니다.
우리 팀 영향: 실제 개발 환경과 유사한 CI 루프 기반의 평가 체계를 통해 우리 팀의 코드 생성 에이전트가 가진 장기적 코드 관리 역량을 객관적으로 검증할 수 있습니다.
액션: 실험
액션 근거: 기존의 단발성 코드 수정 성능 측정을 넘어 실제 서비스 운영 환경에 필요한 지속적 유지보수 능력을 확인하기 위해 실험이 필요합니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

6) MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning

arXiv: https://arxiv.org/abs/2603.03379
HF: https://huggingface.co/papers/2603.03379
카테고리: -
테마: RAG, LLM, Reasoning
우선순위 점수: 1.833
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: MemSifter는 대규모 언어 모델의 장기 기억 검색 부하를 줄이기 위해 소형 프록시 모델에 검색 추론 과정을 오프로딩하는 프레임워크입니다. 인덱싱 단계의 복잡한 계산 없이, 강화학습 기반의 보상 체계를 통해 작업 결과에 실질적으로 기여하는 메모리를 선별하도록 프록시 모델을 최적화합니다. 8개의 벤치마크에서 기존 SOTA 방식과 대등하거나 이를 상회하는 성능을 입증하며 효율적인 장기 기억 관리 솔루션을 제시했습니다.
우리 팀 영향: 고비용의 메인 모델 대신 소형 모델로 검색을 최적화함으로써 긴 컨텍스트 처리 비용을 절감하고 시스템 효율성을 높일 수 있습니다.
액션: 실험
액션 근거: 오픈 소스화된 코드와 가중치를 활용하여 실제 RAG 파이프라인에서 소형 모델 기반의 검색 최적화 효율을 직접 검증할 가치가 있습니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

7) Proact-VL: A Proactive VideoLLM for Real-Time AI Companions

arXiv: https://arxiv.org/abs/2603.03447
HF: https://huggingface.co/papers/2603.03447
카테고리: -
테마: Benchmark, Evaluation
우선순위 점수: 1.3
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: Proact-VL은 실시간 AI 동반자를 위해 저지연 추론과 자율적인 응답 시점 결정 기능을 갖춘 멀티모달 프레임워크입니다. 게임 해설 및 가이드 시나리오를 포함한 Live Gaming Benchmark를 통해 실시간 상호작용 성능을 검증하였습니다. 이 모델은 연속적인 스트리밍 입력 환경에서도 높은 품질의 응답과 효율적인 비디오 이해 능력을 보여줍니다.
우리 팀 영향: 실시간 스트리밍 데이터에 대한 자율적 응답 생성 기술을 우리 팀의 대화형 에이전트 서비스에 적용하여 사용자 경험을 개선할 수 있습니다.
액션: 실험
액션 근거: 실시간 저지연 추론과 자율적 응답 시점 결정 기술은 실제 서비스 환경에서 매우 중요하므로 벤치마크를 통한 성능 검증이 필요합니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

8) MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

arXiv: https://arxiv.org/abs/2603.02482
HF: https://huggingface.co/papers/2603.02482
카테고리: -
테마: LLM, Safety, Evaluation
우선순위 점수: 1.233
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: MUSE는 텍스트를 넘어 오디오, 이미지, 비디오 등 멀티모달 입력에 대한 LLM의 안전성을 평가하는 오픈소스 플랫폼입니다. 세 가지 다회차 공격 알고리즘과 5단계 안전 분류 체계를 갖춘 LLM 판독기를 통합하여 교차 모달리티 페이로드 생성을 지원합니다. 실험 결과, 단일 회차에서 방어율이 높은 모델들도 다회차 공격 및 모달리티 전환 공격(ITMS) 시 최대 90-100%의 공격 성공률을 보였습니다.
우리 팀 영향: 멀티모달 모델 도입 시 텍스트 기반 방어만으로는 부족하며, 모달리티 전환을 포함한 다회차 레드티밍 체계 구축이 필수적임을 시사합니다.
액션: 실험
액션 근거: 제시된 ITMS 기법과 5단계 안전 taxonomy를 활용하여 현재 개발 중인 멀티모달 서비스의 취약점을 정밀 진단할 가치가 높습니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

9) ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors

arXiv: https://arxiv.org/abs/2603.04338
HF: https://huggingface.co/papers/2603.04338
카테고리: -
테마: Reasoning
우선순위 점수: 1.167
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: ArtHOI는 3D 감독 학습 없이 비디오 확산 모델의 결과물을 4D 재구성 문제로 변환하여 관절이 있는 물체와 인간의 상호작용을 생성합니다. 광학 흐름 기반의 부품 분할과 객체 상태를 먼저 복원한 후 인간 동작을 최적화하는 디커플링 파이프라인을 통해 물리적 정밀도를 높였습니다. 냉장고나 캐비닛 등 다양한 관절 물체 조작 상황에서 기존 방식보다 접촉 정확도와 관절 충실도가 뛰어남을 입증했습니다.
우리 팀 영향: 비디오 생성 모델을 활용한 4D 재구성 기술을 통해 물리적으로 타당한 인간-물체 상호작용 데이터를 효율적으로 확보할 수 있습니다.
액션: 실험
액션 근거: 관절 물체 조작에 대한 4D 기하학적 추론 방식이 기존 리지드 물체 중심의 한계를 극복하여 활용 가치가 높기 때문입니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

10) Phi-4-reasoning-vision-15B Technical Report

arXiv: https://arxiv.org/abs/2603.03975
HF: https://huggingface.co/papers/2603.03975
카테고리: -
테마: Reasoning
우선순위 점수: 0.833
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: Phi-4-reasoning-vision-15B는 데이터 큐레이션과 효율적인 아키텍처 설계를 통해 과학, 수학 및 UI 이해 능력을 강화한 15B 규모의 멀티모달 추론 모델입니다. 고해상도 동적 인코더와 체계적인 데이터 필터링을 통해 적은 연산량으로도 높은 성능을 구현했으며, 모드 토큰을 활용해 일반 응답과 추론 응답을 선택적으로 제공합니다. 데이터 품질이 모델 성능의 핵심임을 입증하며 소형 모델에서도 강력한 멀티모달 추론이 가능함을 보여줍니다.
우리 팀 영향: 적은 파라미터로도 고성능 멀티모달 추론이 가능함을 확인하여, 효율적인 온디바이스 또는 경량화 모델 구축 전략에 참고할 수 있습니다.
액션: 도입 검토
액션 근거: 데이터 합성 및 필터링 기법과 하이브리드 추론 모드 구현 방식이 실무적인 모델 최적화에 유용하기 때문입니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

11) EmbodiedSplat: Online Feed-Forward Semantic 3DGS for Open-Vocabulary 3D Scene Understanding

arXiv: https://arxiv.org/abs/2603.04254
HF: https://huggingface.co/papers/2603.04254
카테고리: -
테마: Agent
우선순위 점수: 0.633
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: EmbodiedSplat은 스트리밍 이미지로부터 실시간으로 3D 재구성 및 개방형 어휘(Open-vocabulary) 시맨틱 이해를 수행하는 온라인 피드포워드 3DGS 프레임워크입니다. CLIP 글로벌 코드북과 온라인 희소 계수 필드를 통해 메모리 소비를 최소화하면서 2D CLIP 임베딩을 3D 가우시안에 결합합니다. 3D U-Net을 활용하여 기하학적 정보를 보완함으로써 기존 오프라인 최적화 방식의 한계를 극복하고 새로운 장면에 대한 일반화 성능을 확보했습니다.
우리 팀 영향: 실시간 3D 시맨틱 재구성이 가능해짐에 따라 에이전트의 자율 주행 및 환경 이해 성능을 크게 향상시킬 수 있습니다.
액션: 실험
액션 근거: 온라인 피드포워드 방식의 3DGS와 개방형 어휘 이해의 결합은 실시간 로봇 제어 및 탐색 분야에서 활용 가치가 높기 때문입니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

12) BeamPERL: Parameter-Efficient RL with Verifiable Rewards Specializes Compact LLMs for Structured Beam Mechanics Reasoning

arXiv: https://arxiv.org/abs/2603.04124
HF: https://huggingface.co/papers/2603.04124
카테고리: -
테마: Reasoning
우선순위 점수: 0.633
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: BeamPERL은 1.5B 규모의 소형 언어 모델에 기호 솔버의 검증 가능한 보상을 활용한 매개변수 효율적 강화학습(RLVR)을 적용하여 구조 역학 추론 능력을 학습시켰습니다. 실험 결과 Base 모델 대비 Pass@1 성능이 66.7% 향상되었으며, 하중의 개수가 늘어나는 구성적 일반화에는 성공했습니다. 하지만 지지점 위치 변경과 같은 위상적 변화에는 취약함을 보이며, 결과 중심의 보상만으로는 물리 법칙의 내재화보다 절차적 템플릿 매칭에 치중됨이 확인되었습니다.
우리 팀 영향: 검증 가능한 정답 보상만으로는 물리적 법칙의 완전한 내재화가 어려우므로, 도메인 특화 추론 모델 구축 시 구조화된 사고 과정(Scaffolding) 설계가 병행되어야 함을 시사합니다.
액션: 실험
액션 근거: 소형 모델의 추론 성능 향상 폭이 크지만 일반화 한계가 명확하므로, 제안된 RLVR 기법과 구조적 가이드라인의 결합 효과를 검증할 가치가 있습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

13) MIBURI: Towards Expressive Interactive Gesture Synthesis

arXiv: https://arxiv.org/abs/2603.03282
HF: https://huggingface.co/papers/2603.03282
카테고리: -
테마: LLM
우선순위 점수: 0.633
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: MIBURI는 실시간 대화형 에이전트를 위해 음성 및 텍스트와 동기화된 전신 제스처와 표정을 생성하는 온라인 인과적 프레임워크입니다. 신체 부위별 제스처 코덱을 통해 계층적 모션 세부 사항을 이산 토큰으로 인코딩하며, LLM 기반 임베딩을 조건으로 실시간 자동 회귀 생성을 수행합니다. 정적 포즈 수렴을 방지하고 표현의 다양성을 높이기 위한 보조 목적 함수를 도입하여 기존 방식보다 자연스러운 상호작용을 지원합니다.
우리 팀 영향: 실시간 대화 시스템에서 지연 시간 없이 자연스러운 비언어적 표현을 생성하는 기술을 확보하여 사용자 경험을 개선할 수 있습니다.
액션: 실험
액션 근거: 실시간성과 표현력을 동시에 확보한 인과적 프레임워크로서 기존 LLM 기반 에이전트의 물리적 표현 한계를 극복할 가능성이 높기 때문입니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

14) Specificity-aware reinforcement learning for fine-grained open-world classification

arXiv: https://arxiv.org/abs/2603.03197
HF: https://huggingface.co/papers/2603.03197
카테고리: -
테마: Reasoning
우선순위 점수: 0.6
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: Classifying fine-grained visual concepts under open-world settings, i.e., without a predefined label set, demands models to be both accurate and specific. Recent reasoning Large Multimodal Models (LMMs) exhibit strong visual understanding capability but tend to produce overly ge…
우리 팀 영향: 추가 검토 필요
액션: 보류
액션 근거: LLM 출력 파싱 실패로 수동 검토가 필요합니다.
요약 신뢰도(모델): 0.2
리뷰 메모:

15) CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video

arXiv: https://arxiv.org/abs/2603.04291
HF: https://huggingface.co/papers/2603.04291
카테고리: -
테마: Benchmark
우선순위 점수: 0.267
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: CubeComposer는 원근 영상을 입력받아 4K 해상도의 360도 파노라마 영상을 생성하는 시공간 자기회귀 확산 모델입니다. 360도 영상을 6개의 큐브맵 면으로 분할하여 순차적으로 생성함으로써 메모리 효율성을 높이고 고해상도 출력을 가능하게 합니다. 큐브 면 간의 연속성을 위해 전용 위치 인코딩과 패딩, 블렌딩 기술을 도입하여 경계선 문제를 해결했습니다.
우리 팀 영향: 고해상도 VR 콘텐츠 제작 공정에서 기존의 후처리 초해상도 방식 대신 네이티브 4K 생성을 통한 품질 향상을 기대할 수 있습니다.
액션: 실험
액션 근거: 큐브맵 분할 기반의 자기회귀 생성 방식이 고해상도 영상 생성 시 메모리 제약을 극복하는 실용적인 대안이 될 수 있는지 검증이 필요합니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

16) AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Large Vision-Language Models

arXiv: https://arxiv.org/abs/2603.01236
HF: https://huggingface.co/papers/2603.01236
카테고리: -
테마: General
우선순위 점수: 0.167
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 본 논문은 대형 시각-언어 모델(LVLM)의 연산 효율화를 위해 어텐션 기반과 다양성 기반 토큰 프루닝 기법을 심층 분석했습니다. 분석 결과, 다양성 기반 방식은 의도보다 낮은 특징 다양성을 보이며 환각 현상을 유발할 가능성이 높고, 어텐션 기반 방식은 단순한 이미지에서 더 효과적임을 확인했습니다. 이를 바탕으로 이미지 복잡도에 따라 프루닝 전략을 조정하는 적응형 메커니즘인 AgilePruner를 제안합니다.
우리 팀 영향: 이미지 특성에 따른 적응형 프루닝 전략을 통해 LVLM의 추론 속도를 개선하면서도 환각 현상을 억제하는 최적화 기법을 확보할 수 있습니다.
액션: 실험
액션 근거: 기존 프루닝 방식의 한계인 환각 문제를 정량적으로 분석하고 이미지 복잡도에 따른 성능 개선 가능성을 제시했으므로 실제 모델 적용 시 효율성을 검증할 가치가 있습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

17) RIVER: A Real-Time Interaction Benchmark for Video LLMs

arXiv: https://arxiv.org/abs/2603.03985
HF: https://huggingface.co/papers/2603.03985
카테고리: -
테마: Benchmark
우선순위 점수: 0.1
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: RIVER Bench는 오프라인 방식에 치중된 기존 비디오 LLM 평가의 한계를 극복하기 위해 실시간 상호작용 능력을 측정하는 벤치마크입니다. 회상 기억, 실시간 지각, 능동적 예측이라는 세 가지 핵심 과제를 통해 모델이 비디오 전체가 아닌 스트리밍 상황에서 대화하는 능력을 평가합니다. 실험 결과 기존 오프라인 모델들은 실시간 처리와 장기 기억 유지에서 한계를 보였으며, 이를 개선하기 위한 범용적인 방법론도 함께 제시되었습니다.
우리 팀 영향: 실시간 비디오 스트리밍 데이터에 대한 모델의 응답 지연 및 실시간 이해도를 정량적으로 평가할 수 있는 기준을 제공합니다.
액션: 도입 검토
액션 근거: 실시간 상호작용이 필요한 서비스 개발 시 모델의 성능을 객관적으로 검증할 수 있는 벤치마크와 데이터셋이 공개되어 활용 가치가 높습니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

18) InfinityStory: Unlimited Video Generation with World Consistency and Character-Aware Shot Transitions

arXiv: https://arxiv.org/abs/2603.03646
HF: https://huggingface.co/papers/2603.03646
카테고리: -
테마: General
우선순위 점수: 0.067
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: InfinityStory는 배경 일관성과 다중 피사체 전환을 개선하여 장편 스토리텔링 비디오를 생성하는 프레임워크입니다. 배경 일관성 유지 파이프라인과 복잡한 장면 전환을 위한 모듈을 도입하고, 1만 개의 다중 피사체 전환 데이터셋을 구축했습니다. VBench 평가 결과 배경 및 피사체 일관성 지표에서 우수한 성능을 기록했습니다.
우리 팀 영향: 장편 비디오 생성 시 고질적인 문제인 배경 및 캐릭터 일관성 유지 기술을 우리 팀의 비디오 합성 연구에 참고할 수 있습니다.
액션: 실험
액션 근거: VBench에서 높은 일관성 점수를 기록한 만큼, 제안된 배경 유지 파이프라인과 전환 모듈의 실제 효용성을 검증할 가치가 있습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

19) GroupEnsemble: Efficient Uncertainty Estimation for DETR-based Object Detection

arXiv: https://arxiv.org/abs/2603.01847
HF: https://huggingface.co/papers/2603.01847
카테고리: -
테마: General
우선순위 점수: 0.033
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: DETR 기반 객체 탐지 모델에서 공간적 불확실성을 측정하기 위해 단일 추론 과정에서 여러 쿼리 그룹을 독립적으로 처리하는 GroupEnsemble 기법을 제안합니다. 어텐션 마스크를 통해 쿼리 그룹 간 상호작용을 차단함으로써 앙상블 효과를 구현하고 메모리 및 지연 시간 문제를 해결했습니다. 실험 결과, MC-Dropout과 결합했을 때 적은 비용으로 Deep Ensemble보다 우수한 성능을 보였습니다.
우리 팀 영향: 추가적인 모델 복제 없이 단일 추론만으로 신뢰도 높은 불확실성 추정이 가능해져 실시간 자율주행 시스템의 안전성 향상에 기여할 수 있습니다.
액션: 실험
액션 근거: 기존 Deep Ensemble 대비 연산 효율성이 뛰어나며 DETR 구조에 즉시 적용 가능한 구조적 이점이 있기 때문입니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

20) HDINO: A Concise and Efficient Open-Vocabulary Detector

arXiv: https://arxiv.org/abs/2603.02924
HF: https://huggingface.co/papers/2603.02924
카테고리: -
테마: Fine-Tuning
우선순위 점수: 0.0
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: HDINO는 수동 데이터 큐레이션 없이도 효율적인 오픈 보캐블러리 객체 탐지를 수행하는 모델로, DINO 구조를 기반으로 한 2단계 학습 전략을 제안합니다. 시각-언어 간 의미 정렬을 위해 노이즈 샘플을 활용한 일대다 정렬 메커니즘(O2M)과 난이도 가중치 분류 손실(DWCL)을 도입했습니다. 결과적으로 Grounding DINO 대비 적은 학습 데이터로도 COCO 벤치마크에서 더 높은 성능을 달성했습니다.
우리 팀 영향: 데이터 효율성이 높은 오픈 보캐블러리 탐지 기술을 확보하여 자원 제약이 있는 환경에서의 모델 학습 및 배포 효율을 개선할 수 있습니다.
액션: 도입 검토
액션 근거: 적은 데이터셋으로도 기존 SOTA 모델인 Grounding DINO의 성능을 상회하며 코드와 모델이 공개되어 있어 기술 검증이 용이합니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

보류/무시

사유와 재검토일을 기록하세요.

논문 리뷰 2026-03-06 논문 리뷰 2026-03-04

00. 시작하기

01. AI IDE

02. IDE 확장/플러그인

03. CLI/멀티 플랫폼

04. 에이전트 하네스

05. AI 웹 빌더

06. 워크플로우 플랫폼

08. 일일 리뷰 리포트

07. 논문 트렌드

논문 리뷰 2026-03-05

논문 리뷰 2026-03-05

Daily Paper Review - 2026-03-05

수집 요약

Top Papers

1) Heterogeneous Agent Collaborative Reinforcement Learning

2) T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning

3) Helios: Real Real-Time Long Video Generation Model

4) Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory

5) SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration

6) MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning

7) Proact-VL: A Proactive VideoLLM for Real-Time AI Companions

8) MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

9) ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors

10) Phi-4-reasoning-vision-15B Technical Report

11) EmbodiedSplat: Online Feed-Forward Semantic 3DGS for Open-Vocabulary 3D Scene Understanding

12) BeamPERL: Parameter-Efficient RL with Verifiable Rewards Specializes Compact LLMs for Structured Beam Mechanics Reasoning

13) MIBURI: Towards Expressive Interactive Gesture Synthesis

14) Specificity-aware reinforcement learning for fine-grained open-world classification

15) CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video

16) AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Large Vision-Language Models

17) RIVER: A Real-Time Interaction Benchmark for Video LLMs

18) InfinityStory: Unlimited Video Generation with World Consistency and Character-Aware Shot Transitions

19) GroupEnsemble: Efficient Uncertainty Estimation for DETR-based Object Detection

20) HDINO: A Concise and Efficient Open-Vocabulary Detector

보류/무시

00. 시작하기

01. AI IDE

02. IDE 확장/플러그인

03. CLI/멀티 플랫폼

04. 에이전트 하네스

05. AI 웹 빌더

06. 워크플로우 플랫폼

08. 일일 리뷰 리포트

07. 논문 트렌드

​논문 리뷰 2026-03-05

​Daily Paper Review - 2026-03-05

​수집 요약

​Top Papers

​1) Heterogeneous Agent Collaborative Reinforcement Learning

​2) T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning

​3) Helios: Real Real-Time Long Video Generation Model

​4) Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory

​5) SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration

​6) MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning

​7) Proact-VL: A Proactive VideoLLM for Real-Time AI Companions

​8) MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

​9) ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors

​10) Phi-4-reasoning-vision-15B Technical Report

​11) EmbodiedSplat: Online Feed-Forward Semantic 3DGS for Open-Vocabulary 3D Scene Understanding

​12) BeamPERL: Parameter-Efficient RL with Verifiable Rewards Specializes Compact LLMs for Structured Beam Mechanics Reasoning

​13) MIBURI: Towards Expressive Interactive Gesture Synthesis

​14) Specificity-aware reinforcement learning for fine-grained open-world classification

​15) CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video

​16) AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Large Vision-Language Models

​17) RIVER: A Real-Time Interaction Benchmark for Video LLMs

​18) InfinityStory: Unlimited Video Generation with World Consistency and Character-Aware Shot Transitions

​19) GroupEnsemble: Efficient Uncertainty Estimation for DETR-based Object Detection

​20) HDINO: A Concise and Efficient Open-Vocabulary Detector

​보류/무시

논문 리뷰 2026-03-05

Daily Paper Review - 2026-03-05

수집 요약

Top Papers

1) Heterogeneous Agent Collaborative Reinforcement Learning

2) T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning

3) Helios: Real Real-Time Long Video Generation Model

4) Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory

5) SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration

6) MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning

7) Proact-VL: A Proactive VideoLLM for Real-Time AI Companions

8) MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

9) ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors

10) Phi-4-reasoning-vision-15B Technical Report

11) EmbodiedSplat: Online Feed-Forward Semantic 3DGS for Open-Vocabulary 3D Scene Understanding

12) BeamPERL: Parameter-Efficient RL with Verifiable Rewards Specializes Compact LLMs for Structured Beam Mechanics Reasoning

13) MIBURI: Towards Expressive Interactive Gesture Synthesis

14) Specificity-aware reinforcement learning for fine-grained open-world classification

15) CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video

16) AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Large Vision-Language Models

17) RIVER: A Real-Time Interaction Benchmark for Video LLMs

18) InfinityStory: Unlimited Video Generation with World Consistency and Character-Aware Shot Transitions

19) GroupEnsemble: Efficient Uncertainty Estimation for DETR-based Object Detection

20) HDINO: A Concise and Efficient Open-Vocabulary Detector

보류/무시