논문 리뷰 2026-03-26

기준일: 2026-03-26
수집 건수(중복 제거): 19
발행 Top N: 19
원본 리포트: trend/reports/daily/2026-03-26.md
마지막 갱신: 2026-03-27 00:01:31

Daily Paper Review - 2026-03-26

수집 요약

총 수집(중복 제거 후): 19
발행 Top N: 19
LLM 요약 성공: 19
LLM 요약 폴백: 0

Top Papers

1) CUA-Suite: Massive Human-annotated Video Demonstrations for Computer-Use Agents

arXiv: https://arxiv.org/abs/2603.24440
HF: https://huggingface.co/papers/2603.24440
카테고리: -
테마: Agent, Reasoning, Benchmark
우선순위 점수: 3.067
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: CUA-Suite는 컴퓨터 사용 에이전트(CUA)를 위해 55시간 분량의 고화질 인간 시연 비디오와 정밀한 주석을 제공하는 대규모 데이터셋입니다. 기존 데이터셋의 한계를 넘어 30fps의 연속적인 화면 녹화와 커서 궤적, 다층적 추론 주석을 포함하여 인간 상호작용의 동적 특성을 보존합니다. 또한 UI 요소 인식 및 계획 능력을 평가하기 위한 벤치마크와 대규모 그라운딩 데이터셋을 함께 공개했습니다.
우리 팀 영향: 고품질의 연속 비디오 데이터와 정밀한 UI 주석을 통해 데스크톱 워크플로우 자동화 에이전트의 성능을 획기적으로 개선할 수 있는 학습 자원을 확보할 수 있습니다.
액션: 실험
액션 근거: 기존 데이터셋 대비 압도적인 프레임 수와 연속적인 동작 데이터를 제공하므로, 에이전트의 시각적 이해 및 제어 성능 향상을 위한 미세 조정 데이터로 활용 가치가 높습니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

2) GameplayQA: A Benchmarking Framework for Decision-Dense POV-Synced Multi-Video Understanding of 3D Virtual Agents

arXiv: https://arxiv.org/abs/2603.24329
HF: https://huggingface.co/papers/2603.24329
카테고리: -
테마: Agent, Reasoning, Evaluation
우선순위 점수: 2.233
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: GameplayQA는 3D 가상 환경에서 자율 에이전트의 인지 및 추론 능력을 평가하기 위한 벤치마킹 프레임워크입니다. 멀티플레이어 게임 영상을 활용하여 자신, 타인, 환경이라는 세 가지 관점에서 시간 동기화된 고밀도 주석과 2.4K개의 진단용 질의응답 쌍을 제공합니다. 최신 멀티모달 LLM 평가 결과, 시간적 접지 및 에이전트 역할 할당 등에서 인간 수준과 큰 격차가 있음이 확인되었습니다.
우리 팀 영향: 에이전트 중심의 다중 비디오 이해 및 의사결정 밀도가 높은 환경에서의 추론 능력을 정밀하게 측정할 수 있는 평가 지표로 활용 가능합니다.
액션: 실험
액션 근거: 에이전트의 시각적 인지 오류와 환각 현상을 세분화하여 분석할 수 있는 데이터셋 구조를 갖추고 있어 모델 개선 실험에 유용하기 때문입니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

3) EVA: Efficient Reinforcement Learning for End-to-End Video Agent

arXiv: https://arxiv.org/abs/2603.22918
HF: https://huggingface.co/papers/2603.22918
카테고리: -
테마: Agent, Reasoning, Fine-Tuning
우선순위 점수: 2.233
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: EVA는 비디오의 긴 토큰 시퀀스와 중복 프레임 문제를 해결하기 위해 ‘인식 전 계획’ 전략을 사용하는 효율적인 강화학습 기반 에이전트 프레임워크입니다. MLLM이 스스로 무엇을 언제 어떻게 볼지 결정하는 반복적인 추론 과정을 거치며, SFT, KTO, GRPO로 구성된 3단계 학습 파이프라인을 통해 훈련됩니다. 6개의 벤치마크에서 기존 MLLM 대비 6-12%, 이전 적응형 에이전트 대비 1-3%의 성능 향상을 입증했습니다.
우리 팀 영향: 비디오 데이터 처리 시 불필요한 연산을 줄이고 효율적인 추론이 가능한 에이전트 구조를 도입하여 긴 영상 분석 성능을 개선할 수 있습니다.
액션: 실험
액션 근거: GRPO를 포함한 최신 강화학습 기법을 비디오 에이전트에 적용하여 효율성과 성능을 동시에 확보한 방법론이므로 재현 가치가 높습니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

4) T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search

arXiv: https://arxiv.org/abs/2603.22341
HF: https://huggingface.co/papers/2603.22341
카테고리: -
테마: Agent, LLM, Safety
우선순위 점수: 2.167
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: T-MAP은 다단계 도구 실행 과정에서 발생하는 에이전트 특화 취약점을 탐지하기 위해 실행 경로 인식 진화 탐색 기법을 제안합니다. 이 방법은 Model Context Protocol(MCP) 환경에서 실행 궤적을 활용하여 안전 가드레일을 우회하고 실제 유해한 목표를 달성하는 공격 프롬프트를 자동 생성합니다. 실험 결과 GPT-5.2 및 Gemini-3-Pro 등 최신 모델을 포함한 다양한 환경에서 기존 방식보다 높은 공격 실현율을 기록했습니다.
우리 팀 영향: 자율형 에이전트의 도구 사용 과정에서 발생할 수 있는 보안 취약점을 사전에 점검하고 방어 체계를 강화하는 데 활용할 수 있습니다.
액션: 실험
액션 근거: 최신 MCP 환경과 차세대 LLM 모델들을 대상으로 에이전트 특유의 취약점을 실질적으로 증명했다는 점에서 기술적 검증 가치가 높습니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

5) PLDR-LLMs Reason At Self-Organized Criticality

arXiv: https://arxiv.org/abs/2603.23539
HF: https://huggingface.co/papers/2603.23539
카테고리: -
테마: LLM, Reasoning, Benchmark
우선순위 점수: 1.833
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 본 논문은 자기 조직화된 임계 상태에서 사전 학습된 PLDR-LLM이 추론 능력을 발휘함을 입증합니다. 임계 상태에서 모델의 연역적 출력은 2차 상전이와 유사한 특성을 보이며, 이를 통해 데이터셋의 보편적 표현을 학습하여 일반화된 추론이 가능해집니다. 특히 벤치마크 평가 없이도 모델의 질서 매개변수(order parameter)를 통해 추론 능력을 정량적으로 측정할 수 있는 방법론을 제시합니다.
우리 팀 영향: 벤치마크 데이터셋 없이 모델 내부 파라미터 통계만으로 추론 성능을 예측하고 최적화할 수 있는 새로운 평가 지표를 제공할 수 있습니다.
액션: 실험
액션 근거: 물리학적 상전이 개념을 도입하여 LLM의 추론 메커니즘을 설명하고 정량화하는 접근 방식이 독창적이며 성능 최적화에 기여할 가능성이 높습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

6) When Models Judge Themselves: Unsupervised Self-Evolution for Multimodal Reasoning

arXiv: https://arxiv.org/abs/2603.21289
HF: https://huggingface.co/papers/2603.21289
카테고리: -
테마: LLM, Reasoning
우선순위 점수: 1.6
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 인간의 정답 주석이나 외부 보상 모델 없이 멀티모달 모델이 스스로 추론 능력을 향상시키는 비지도 자가 진화 프레임워크를 제안합니다. 샘플링된 추론 경로들 사이의 자기 일관성을 사전 정보로 활용하고, 자체 판별기 기반의 변조를 통해 각 경로의 가중치를 동적으로 재조정합니다. GRPO 알고리즘을 적용하여 5개의 수학적 추론 벤치마크에서 일관된 성능 향상을 입증했습니다.
우리 팀 영향: 고비용의 데이터 레이블링 없이도 멀티모달 모델의 추론 성능을 고도화할 수 있는 자가 학습 파이프라인 구축에 기여할 수 있습니다.
액션: 실험
액션 근거: 외부 교사 모델 없이 자체적인 피드백 루프만으로 성능 향상이 가능하다는 점에서 데이터 효율성 측면의 검증 가치가 높습니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

7) UI-Voyager: A Self-Evolving GUI Agent Learning via Failed Experience

arXiv: https://arxiv.org/abs/2603.24533
HF: https://huggingface.co/papers/2603.24533
카테고리: -
테마: Agent, Fine-Tuning
우선순위 점수: 1.5
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: UI-Voyager는 실패한 궤적에서 효율적으로 학습하기 위해 제안된 2단계 자가 진화형 모바일 GUI 에이전트입니다. Rejection Fine-Tuning(RFT)을 통한 데이터-모델 공동 진화와 Group Relative Self-Distillation(GRSD)을 통한 단계별 밀집 감독을 활용합니다. AndroidWorld 벤치마크에서 4B 모델로 81.0%의 성공률을 기록하며 인간 수준의 성능을 상회하는 결과를 보여주었습니다.
우리 팀 영향: 수동 데이터 어노테이션 없이도 실패 사례를 통해 에이전트의 성능을 자가 개선할 수 있는 효율적인 학습 프레임워크를 제공합니다.
액션: 실험
액션 근거: 소규모 파라미터 모델로도 높은 성능을 달성한 자가 진화 메커니즘이 실제 GUI 자동화 서비스 고도화에 유용할 것으로 판단됩니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

8) CarePilot: A Multi-Agent Framework for Long-Horizon Computer Task Automation in Healthcare

arXiv: https://arxiv.org/abs/2603.24157
HF: https://huggingface.co/papers/2603.24157
카테고리: -
테마: Agent, Reasoning, Benchmark
우선순위 점수: 1.467
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: CarePilot은 의료용 소프트웨어 자동화를 위한 멀티 에이전트 프레임워크로, 장기적 추론이 필요한 복잡한 의료 워크플로우를 처리합니다. Actor-Critic 구조를 기반으로 이중 메모리 메커니즘을 활용하여 시각적 인터페이스와 시스템 상태를 분석하고 최적의 행동을 예측합니다. 자체 구축한 CareFlow 벤치마크에서 기존 시각 언어 모델 대비 우수한 성능 향상을 입증했습니다.
우리 팀 영향: 의료 도구 및 전자의무기록 시스템 자동화 기술을 통해 도메인 특화 에이전트 개발 및 워크플로우 효율화에 기여할 수 있습니다.
액션: 실험
액션 근거: 의료 분야의 복잡한 장기 태스크 수행을 위한 Actor-Critic 기반 멀티 에이전트 구조와 메모리 메커니즘의 유효성을 직접 검증할 가치가 있습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

9) OmniWeaving: Towards Unified Video Generation with Free-form Composition and Reasoning

arXiv: https://arxiv.org/abs/2603.24458
HF: https://huggingface.co/papers/2603.24458
카테고리: -
테마: Agent, Reasoning, Benchmark
우선순위 점수: 1.333
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: OmniWeaving은 텍스트, 다중 이미지, 비디오 입력을 통합하여 복잡한 사용자 의도를 추론하고 생성하는 오픈소스 비디오 생성 모델입니다. 대규모 사전 학습 데이터를 통해 멀티모달 구성 및 추론 능력을 강화하였으며, 지능형 비디오 생성을 평가하기 위한 IntelligentVBench를 함께 제안합니다. 실험 결과 오픈소스 통합 모델 중 가장 우수한 성능을 보여주며 코드와 모델이 공개될 예정입니다.
우리 팀 영향: 멀티모달 입력 기반의 복잡한 비디오 생성 및 추론 기능이 필요한 에이전트 서비스 개발에 참고할 수 있습니다.
액션: 실험
액션 근거: 오픈소스 기반의 통합 비디오 생성 모델로서 다중 이미지와 텍스트를 결합한 추론 기반 생성 성능의 검증이 필요합니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

10) Why Does Self-Distillation (Sometimes) Degrade the Reasoning Capability of LLMs?

arXiv: https://arxiv.org/abs/2603.24472
HF: https://huggingface.co/papers/2603.24472
카테고리: -
테마: Reasoning
우선순위 점수: 1.3
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: LLM의 자기 증류(Self-distillation) 과정에서 추론 과정이 단축됨에 따라 수학적 추론 성능이 최대 40%까지 하락할 수 있음을 발견했습니다. 이러한 성능 저하의 원인은 모델이 불확실성을 표현하는 ‘인식적 언어화(epistemic verbalization)‘가 억제되기 때문인 것으로 분석되었습니다. 교사 모델이 풍부한 정보에 기반해 불확실성을 숨기면 특정 도메인 최적화에는 유리하나, 새로운 문제(OOD)에 대한 대응력은 약화됩니다.
우리 팀 영향: 추론 모델의 효율화를 위해 응답 길이를 줄이는 시도가 오히려 모델의 불확실성 판단 능력을 저해하여 일반화 성능을 낮출 수 있음을 시사합니다.
액션: 실험
액션 근거: 현재 진행 중인 추론 모델 최적화 과정에서 응답 길이 단축이 추론 품질 및 OOD 성능에 미치는 부정적 영향을 검증할 필요가 있습니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

11) StreamingClaw Technical Report

arXiv: https://arxiv.org/abs/2603.22120
HF: https://huggingface.co/papers/2603.22120
카테고리: -
테마: RAG, Agent, Reasoning
우선순위 점수: 1.267
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: StreamingClaw는 실시간 스트리밍 비디오 이해와 신체 지능(Embodied Intelligence)을 위한 통합 에이전트 프레임워크입니다. 실시간 추론, 다중 에이전트 간 공유되는 계층적 장기 메모리, 그리고 인지-결정-행동의 폐쇄 루프 시스템을 지원합니다. OpenClaw와 호환되어 오픈소스 생태계의 자원을 활용할 수 있으며 물리적 환경에서의 능동적인 상호작용에 최적화되어 있습니다.
우리 팀 영향: 실시간 비디오 스트림 기반의 추론과 장기 메모리 메커니즘을 결합하여 물리적 환경에서 동작하는 에이전트 개발에 참고할 수 있습니다.
액션: 실험
액션 근거: 실시간 스트리밍 데이터 처리와 장기 메모리 계층 구조가 우리 팀의 에이전트 아키텍처 고도화에 유용한 벤치마크가 될 수 있습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

12) UniFunc3D: Unified Active Spatial-Temporal Grounding for 3D Functionality Segmentation

arXiv: https://arxiv.org/abs/2603.23478
HF: https://huggingface.co/papers/2603.23478
카테고리: -
테마: Agent, Reasoning
우선순위 점수: 1.233
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: UniFunc3D는 3D 장면에서 자연어 명령을 기반으로 상호작용 가능한 요소를 정밀하게 분할하는 통합 프레임워크입니다. 멀티모달 거대 언어 모델(MLLM)을 능동적 관찰자로 활용하여 의미적, 시간적, 공간적 추론을 단일 과정으로 통합했습니다. 학습 없이도 조립식 전략을 통해 적응형 프레임 선택과 세밀한 상호작용 부위 식별을 수행합니다.
우리 팀 영향: 학습 없이도 MLLM의 추론 능력만으로 3D 환경 내 객체 기능 분할 성능을 대폭 향상시킬 수 있는 방법론을 제시합니다.
액션: 실험
액션 근거: 기존 학습 기반 모델보다 높은 성능 향상을 보인 Training-free 방식이므로, 내부 에이전트 시스템의 공간 이해 모듈에 적용 가능성을 검증할 가치가 있습니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

13) Qworld: Question-Specific Evaluation Criteria for LLMs

arXiv: https://arxiv.org/abs/2603.23522
HF: https://huggingface.co/papers/2603.23522
카테고리: -
테마: Reasoning, Evaluation
우선순위 점수: 1.233
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: Qworld는 개방형 질문에 대해 질문별 맞춤형 평가 기준을 생성하는 재귀적 확장 트리 기반의 프레임워크입니다. 질문을 시나리오, 관점, 세부 이진 기준으로 계층적으로 분해하여 고정된 루브릭이 놓치기 쉬운 맥락 의존적 요구사항을 포착합니다. HealthBench 실험 결과 전문가 기준의 89%를 커버하며 기존 방식보다 높은 통찰력과 세밀함을 보여주었습니다.
우리 팀 영향: LLM 평가 시 질문마다 최적화된 세부 지표를 자동 생성함으로써 모델 간의 미세한 성능 차이를 정밀하게 분석하는 데 기여할 수 있습니다.
액션: 실험
액션 근거: 기존의 정적 루브릭 한계를 극복하고 질문의 맥락을 반영한 정교한 평가 체계를 구축할 수 있는 구체적인 방법론을 제시하고 있기 때문입니다.
요약 신뢰도(모델): 0.92
리뷰 메모:

14) 4DGS360: 360° Gaussian Reconstruction of Dynamic Objects from a Single Video

arXiv: https://arxiv.org/abs/2603.21618
HF: https://huggingface.co/papers/2603.21618
카테고리: -
테마: Benchmark, Evaluation
우선순위 점수: 0.867
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 4DGS360은 단일 시점 비디오에서 동적 객체의 360도 4D 재구성을 수행하는 확산 모델 프리 프레임워크입니다. AnchorTAP3D라는 3D 트래커를 통해 가려진 영역의 기하학적 모호성을 해결하고 안정적인 초기 포인트 궤적을 생성합니다. 새로운 벤치마크인 iPhone360을 통해 기존 데이터셋보다 넓은 각도에서의 재구성 성능을 입증했습니다.
우리 팀 영향: 단일 카메라 영상만으로 고품질의 360도 동적 객체 에셋을 생성할 수 있어 콘텐츠 제작 효율성을 크게 높일 수 있습니다.
액션: 실험
액션 근거: 기존 2D 사전 학습 모델 의존도를 낮추면서도 가려진 영역의 기하학적 일관성을 확보한 방식이 실용적이라 판단됩니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

15) Can LLM Agents Be CFOs? A Benchmark for Resource Allocation in Dynamic Enterprise Environments

arXiv: https://arxiv.org/abs/2603.23638
HF: https://huggingface.co/papers/2603.23638
카테고리: -
테마: LLM, Benchmark
우선순위 점수: 0.667
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 본 논문은 불확실한 기업 환경에서 LLM 에이전트의 장기적 자원 배분 능력을 평가하기 위한 벤치마크인 EnterpriseArena를 제안합니다. 132개월간의 기업 시뮬레이터를 통해 재무 데이터와 거시 경제 신호를 바탕으로 의사결정을 수행하며, 정보 획득과 자원 보존 사이의 트레이드오프를 평가합니다. 실험 결과, 최신 LLM 중 16%만이 전체 기간 생존에 성공하며 장기 자원 배분 능력의 한계를 드러냈습니다.
우리 팀 영향: 복잡한 비즈니스 로직과 장기적 의사결정이 필요한 에이전트 개발 시 현재 LLM의 한계점을 파악하고 벤치마킹 지표로 활용할 수 있습니다.
액션: 실험
액션 근거: 기존의 단기 작업 위주 평가에서 벗어나 장기적 자원 관리 및 불확실성 대응 능력을 검증할 수 있는 유용한 프레임워크로 판단됩니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

16) Unleashing Spatial Reasoning in Multimodal Large Language Models via Textual Representation Guided Reasoning

arXiv: https://arxiv.org/abs/2603.23404
HF: https://huggingface.co/papers/2603.23404
카테고리: -
테마: Reasoning
우선순위 점수: 0.667
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 기존 MLLM의 3D 공간 추론 한계를 극복하기 위해 텍스트 기반의 공간 표현을 중간 단계로 활용하는 TRACE 프롬프팅 기법을 제안합니다. TRACE는 1인칭 시점 비디오에서 카메라 궤적과 객체 정보를 추출하여 텍스트 형태의 3D 환경 구조를 생성함으로써 추론 정확도를 높입니다. VSI-Bench 및 OST-Bench 실험을 통해 다양한 모델 백본에서 일관된 성능 향상을 입증했습니다.
우리 팀 영향: 비디오 기반 공간 추론 성능을 높이기 위해 별도의 모델 학습 없이 프롬프팅 전략만으로 구조적 추론을 강화할 수 있는 방법론을 제공합니다.
액션: 실험
액션 근거: 텍스트 기반의 중간 추론 단계(TRACE)가 실제 서비스 환경의 비디오 질의응답 정확도 개선에 기여할 수 있는지 검증이 필요합니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

17) Toward Physically Consistent Driving Video World Models under Challenging Trajectories

arXiv: https://arxiv.org/abs/2603.24506
HF: https://huggingface.co/papers/2603.24506
카테고리: -
테마: General
우선순위 점수: 0.1
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: PhyGenesis는 자율 주행 시뮬레이션에서 비정상적이거나 도전적인 궤적 입력 시 발생하는 물리적 불일치 문제를 해결하는 세계 모델입니다. 물리적 조건 생성기와 물리 강화 비디오 생성기를 통해 시뮬레이터에서 생성된 불완전한 궤적을 물리적으로 타당한 조건으로 변환하여 고화질 다중 뷰 영상을 생성합니다. CARLA 시뮬레이터를 활용한 대규모 물리 데이터셋을 구축하여 극한 상황에서도 물리적 일관성을 유지하도록 학습되었습니다.
우리 팀 영향: 도전적인 주행 시나리오와 물리적 제약 조건을 반영한 데이터 생성 기술은 자율 주행 시뮬레이션의 신뢰성을 높이는 데 기여할 수 있습니다.
액션: 실험
액션 근거: 시뮬레이션 기반의 물리 데이터셋 구축 방식과 궤적 보정 메커니즘이 기존 비디오 생성 모델의 한계를 보완할 수 있는지 검증이 필요합니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

18) LagerNVS: Latent Geometry for Fully Neural Real-time Novel View Synthesis

arXiv: https://arxiv.org/abs/2603.20176
HF: https://huggingface.co/papers/2603.20176
카테고리: -
테마: General
우선순위 점수: 0.067
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: LagerNVS는 명시적인 3D 재구성 없이도 3D 유도 편향을 활용하는 인코더-디코더 기반의 실시간 신규 뷰 합성 모델입니다. 사전 학습된 3D 재구성 네트워크를 인코더로 활용하고 경량 디코더를 결합하여 종단간 학습을 수행합니다. Re10k 데이터셋에서 31.4 PSNR을 기록하며 카메라 정보 유무와 상관없이 실시간 렌더링 및 야생 데이터 일반화가 가능함을 입증했습니다.
우리 팀 영향: 실시간 렌더링 성능과 일반화 능력을 갖춘 3D 인식 잠재 특징 기반의 NVS 기술을 우리 팀의 3D 콘텐츠 생성 파이프라인에 참고할 수 있습니다.
액션: 실험
액션 근거: 명시적 3D 재구성 없이도 높은 PSNR 수치를 달성하고 실시간 구동이 가능하다는 점에서 기술적 검증 가치가 높습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

19) 6Bit-Diffusion: Inference-Time Mixed-Precision Quantization for Video Diffusion Models

arXiv: https://arxiv.org/abs/2603.18742
HF: https://huggingface.co/papers/2603.18742
카테고리: -
테마: General
우선순위 점수: 0.067
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 비디오 확산 모델(VDM)의 메모리 및 연산 효율을 높이기 위해 NVFP4와 INT8을 혼합한 동적 양자화 프레임워크를 제안합니다. 블록의 입출력 차이와 양자화 민감도 사이의 선형 상관관계를 활용하여, 안정적인 레이어에는 NVFP4를, 변동성이 큰 레이어에는 INT8을 동적으로 할당합니다. 또한 시간적 중복성을 활용한 Temporal Delta Cache(TDC)를 통해 불필요한 연산을 생략하여 가속화를 달성했습니다.
우리 팀 영향: 비디오 생성 모델의 추론 속도를 1.92배 향상시키고 메모리 사용량을 3.32배 절감하여 온디바이스 및 실시간 서비스 배포 가능성을 높입니다.
액션: 실험
액션 근거: 동적 양자화와 캐싱 기법을 통한 성능 최적화 수치가 구체적이며, 비디오 DiT 모델의 고비용 추론 문제를 해결할 실무적 가치가 높기 때문입니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

보류/무시

사유와 재검토일을 기록하세요.

논문 리뷰 2026-03-27 논문 리뷰 2026-03-25

​논문 리뷰 2026-03-26

​Daily Paper Review - 2026-03-26

​수집 요약

​Top Papers

​1) CUA-Suite: Massive Human-annotated Video Demonstrations for Computer-Use Agents

​2) GameplayQA: A Benchmarking Framework for Decision-Dense POV-Synced Multi-Video Understanding of 3D Virtual Agents

​3) EVA: Efficient Reinforcement Learning for End-to-End Video Agent

​4) T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search

​5) PLDR-LLMs Reason At Self-Organized Criticality

​6) When Models Judge Themselves: Unsupervised Self-Evolution for Multimodal Reasoning

​7) UI-Voyager: A Self-Evolving GUI Agent Learning via Failed Experience

​8) CarePilot: A Multi-Agent Framework for Long-Horizon Computer Task Automation in Healthcare

​9) OmniWeaving: Towards Unified Video Generation with Free-form Composition and Reasoning

​10) Why Does Self-Distillation (Sometimes) Degrade the Reasoning Capability of LLMs?

​11) StreamingClaw Technical Report

​12) UniFunc3D: Unified Active Spatial-Temporal Grounding for 3D Functionality Segmentation

​13) Qworld: Question-Specific Evaluation Criteria for LLMs

​14) 4DGS360: 360° Gaussian Reconstruction of Dynamic Objects from a Single Video

​15) Can LLM Agents Be CFOs? A Benchmark for Resource Allocation in Dynamic Enterprise Environments

​16) Unleashing Spatial Reasoning in Multimodal Large Language Models via Textual Representation Guided Reasoning

​17) Toward Physically Consistent Driving Video World Models under Challenging Trajectories

​18) LagerNVS: Latent Geometry for Fully Neural Real-time Novel View Synthesis

​19) 6Bit-Diffusion: Inference-Time Mixed-Precision Quantization for Video Diffusion Models

​보류/무시

논문 리뷰 2026-03-26

Daily Paper Review - 2026-03-26

수집 요약

Top Papers

1) CUA-Suite: Massive Human-annotated Video Demonstrations for Computer-Use Agents

2) GameplayQA: A Benchmarking Framework for Decision-Dense POV-Synced Multi-Video Understanding of 3D Virtual Agents

3) EVA: Efficient Reinforcement Learning for End-to-End Video Agent

4) T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search

5) PLDR-LLMs Reason At Self-Organized Criticality

6) When Models Judge Themselves: Unsupervised Self-Evolution for Multimodal Reasoning

7) UI-Voyager: A Self-Evolving GUI Agent Learning via Failed Experience

8) CarePilot: A Multi-Agent Framework for Long-Horizon Computer Task Automation in Healthcare

9) OmniWeaving: Towards Unified Video Generation with Free-form Composition and Reasoning

10) Why Does Self-Distillation (Sometimes) Degrade the Reasoning Capability of LLMs?

11) StreamingClaw Technical Report

12) UniFunc3D: Unified Active Spatial-Temporal Grounding for 3D Functionality Segmentation

13) Qworld: Question-Specific Evaluation Criteria for LLMs

14) 4DGS360: 360° Gaussian Reconstruction of Dynamic Objects from a Single Video

15) Can LLM Agents Be CFOs? A Benchmark for Resource Allocation in Dynamic Enterprise Environments

16) Unleashing Spatial Reasoning in Multimodal Large Language Models via Textual Representation Guided Reasoning

17) Toward Physically Consistent Driving Video World Models under Challenging Trajectories

18) LagerNVS: Latent Geometry for Fully Neural Real-time Novel View Synthesis

19) 6Bit-Diffusion: Inference-Time Mixed-Precision Quantization for Video Diffusion Models

보류/무시