논문 리뷰 2026-03-25

기준일: 2026-03-25
수집 건수(중복 제거): 29
발행 Top N: 29
원본 리포트: trend/reports/daily/2026-03-25.md
마지막 갱신: 2026-03-26 00:02:15

Daily Paper Review - 2026-03-25

수집 요약

총 수집(중복 제거 후): 29
발행 Top N: 29
LLM 요약 성공: 29
LLM 요약 폴백: 0

Top Papers

1) MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding

arXiv: https://arxiv.org/abs/2603.22458
HF: https://huggingface.co/papers/2603.22458
카테고리: -
테마: Benchmark
우선순위 점수: 3.533
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: MinerU-Diffusion은 문서 OCR을 역렌더링 관점에서 재해석하여 기존의 순차적 자기회귀 디코딩 대신 병렬 확산(Diffusion) 디노이징 방식을 제안합니다. 블록 단위 확산 디코더와 불확실성 기반 커리큘럼 학습을 통해 긴 시퀀스 추론의 효율성과 안정성을 확보했습니다. 실험 결과 기존 모델 대비 최대 3.2배 빠른 디코딩 속도를 기록하며 언어적 편향에 덜 의존적인 시각적 OCR 성능을 입증했습니다.
우리 팀 영향: 문서 파싱 속도를 3배 이상 개선하면서도 오류 전파 문제를 해결할 수 있어 대규모 문서 데이터 처리 효율화에 기여할 수 있습니다.
액션: 실험
액션 근거: 기존 자기회귀 방식의 속도 한계를 극복하고 시각적 정보 기반의 정확도를 높였다는 점에서 실제 서비스 적용 가능성을 검토할 가치가 있습니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

2) From Static Templates to Dynamic Runtime Graphs: A Survey of Workflow Optimization for LLM Agents

arXiv: https://arxiv.org/abs/2603.22386
HF: https://huggingface.co/papers/2603.22386
카테고리: -
테마: RAG, Agent, LLM
우선순위 점수: 2.4
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 본 논문은 LLM 에이전트의 워크플로우를 에이전트 계산 그래프(ACG)로 정의하고, 정적 템플릿에서 동적 런타임 그래프로 진화하는 최적화 기법들을 분류합니다. 워크플로우 구조가 결정되는 시점, 최적화 대상, 평가 신호라는 세 가지 차원을 중심으로 기존 연구들을 체계화하였습니다. 또한 구조 중심의 평가 관점을 제시하여 작업 성능뿐만 아니라 비용, 견고성, 구조적 변동성을 함께 고려할 것을 제안합니다.
우리 팀 영향: 에이전트 시스템 설계 시 정적 구조와 동적 생성 방식의 장단점을 비교 분석하고 최적화 전략을 수립하는 데 유용한 프레임워크를 제공합니다.
액션: 도입 검토
액션 근거: LLM 에이전트의 워크플로우 최적화에 대한 통합된 시각과 평가 표준을 제시하고 있어 향후 에이전트 시스템 고도화 시 참고 가치가 높습니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

3) WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions and Explicit State toward Generative ARPG

arXiv: https://arxiv.org/abs/2603.23497
HF: https://huggingface.co/papers/2603.23497
카테고리: -
테마: General
우선순위 점수: 2.133
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: WildWorld는 AAA급 게임인 몬스터 헌터: 와일즈에서 수집한 1억 800만 프레임 규모의 액션 조건부 월드 모델링 데이터셋입니다. 450개 이상의 세분화된 액션과 함께 캐릭터 스켈레톤, 월드 상태, 카메라 포즈 등 명시적인 상태 주석을 제공하여 기존 데이터셋의 한계를 극복하고자 합니다. 이를 통해 모델의 액션 수행 능력과 상태 일관성을 평가할 수 있는 WildBench를 함께 제안합니다.
우리 팀 영향: 고품질 게임 데이터를 활용한 정교한 액션 제어 및 장기적 일관성을 갖춘 비디오 생성 모델 연구에 기여할 수 있습니다.
액션: 실험
액션 근거: 대규모 액션 데이터와 명시적 상태 주석이 포함되어 있어, 제어 가능한 월드 모델 및 비디오 생성 연구의 벤치마크로 활용 가치가 높습니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

4) Ego2Web: A Web Agent Benchmark Grounded in Egocentric Videos

arXiv: https://arxiv.org/abs/2603.22529
HF: https://huggingface.co/papers/2603.22529
카테고리: -
테마: RAG, Agent, LLM
우선순위 점수: 1.9
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: Ego2Web은 1인칭 시점(egocentric) 비디오 인식과 웹 에이전트 실행을 결합한 최초의 벤치마크로, 물리적 환경 이해가 필요한 웹 작업을 평가합니다. 자동 데이터 생성 파이프라인과 인간의 검증을 통해 이커머스, 정보 검색 등 다양한 도메인의 고품질 비디오-작업 쌍을 구축했습니다. 또한 기존 방식보다 인간의 판단과 일치도가 높은 LLM-as-a-Judge 평가 방법인 Ego2WebJudge를 제안합니다.
우리 팀 영향: 물리적 세계의 시각 정보와 디지털 웹 환경을 연동하는 멀티모달 에이전트 기술의 성능 측정 지표로 활용될 수 있습니다.
액션: 실험
액션 근거: AR 글래스 등 웨어러블 기기 기반의 실생활 보조 에이전트 개발 시 시각 정보와 웹 액션 간의 정렬 성능을 검증하기에 적합한 데이터셋입니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

5) SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning

arXiv: https://arxiv.org/abs/2603.23483
HF: https://huggingface.co/papers/2603.23483
카테고리: -
테마: Agent, Reasoning
우선순위 점수: 1.8
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: SpecEyes는 에이전트형 멀티모달 LLM의 순차적 도구 호출로 인한 지연 시간을 줄이기 위해 제안된 추측적 가속 프레임워크입니다. 가벼운 모델이 실행 경로를 미리 예측하는 추측적 플래너 역할을 수행하며, 인지 게이팅 메커니즘을 통해 자가 검증을 수행합니다. 실험 결과 정확도를 유지하거나 향상시키면서도 기존 대비 1.1~3.35배의 속도 향상을 달성했습니다.
우리 팀 영향: 에이전트 시스템의 추론 속도를 획기적으로 개선하여 실시간 멀티모달 서비스의 처리량을 높이는 데 기여할 수 있습니다.
액션: 실험
액션 근거: 정확도 손실 없이 상당한 수준의 속도 향상을 입증하였으므로, 현재 개발 중인 에이전트 파이프라인에 적용 가능성을 검토할 가치가 있습니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

6) UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation

arXiv: https://arxiv.org/abs/2603.23500
HF: https://huggingface.co/papers/2603.23500
카테고리: -
테마: Reasoning
우선순위 점수: 1.433
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: UniGRPO는 텍스트 추론과 이미지 생성을 결합한 인터리브 생성 모델을 위한 통합 강화학습 프레임워크입니다. GRPO와 FlowGRPO를 결합하여 추론을 통한 이미지 품질 향상을 도모하며, 다회차 확장을 위해 CFG 제거 및 속도 필드 기반 MSE 페널티를 도입했습니다. 실험 결과, 추론 과정을 거친 이미지 생성 방식이 기존보다 우수한 품질을 보여주며 확장 가능한 베이스라인임을 입증했습니다.
우리 팀 영향: 텍스트 추론 기반의 이미지 생성 최적화 기법을 통해 멀티모달 모델의 후속 학습 및 생성 품질 개선에 기여할 수 있습니다.
액션: 실험
액션 근거: 추론과 이미지 생성을 동시에 최적화하는 GRPO 기반의 새로운 방법론이므로 실제 성능 향상 여부를 검증할 가치가 있습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

7) Reasoning or Rhetoric? An Empirical Analysis of Moral Reasoning Explanations in Large Language Models

arXiv: https://arxiv.org/abs/2603.21854
HF: https://huggingface.co/papers/2603.21854
카테고리: -
테마: LLM, Reasoning
우선순위 점수: 1.233
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 본 논문은 LLM이 도덕적 딜레마에 대해 실제 추론을 수행하는지 아니면 훈련된 수사법을 모사하는지 분석하였습니다. 실험 결과, 모델들은 인간의 발달 단계와 달리 일관되게 최고 단계의 도덕적 답변을 내놓았으나, 실제 선택과 논리적 근거가 일치하지 않는 ‘도덕적 디커플링’ 현상이 발견되었습니다. 이는 정렬 훈련을 통해 성숙한 도덕적 추론의 외형만 습득했을 뿐, 내적 일관성을 갖춘 추론 능력은 부족함을 시사합니다.
우리 팀 영향: LLM의 논리적 일관성 결여 가능성을 인지하고, 도덕적 판단이 필요한 서비스 설계 시 모델의 답변과 실제 의사결정 간의 괴리를 검증하는 프로세스가 필요합니다.
액션: 실험
액션 근거: 모델의 규모나 학습 방식과 무관하게 발생하는 논리적 불일치 현상을 확인하고, 이를 완화할 수 있는 프롬프팅이나 검증 기법을 테스트할 가치가 있습니다.
요약 신뢰도(모델): 0.92
리뷰 메모:

8) 2Xplat: Two Experts Are Better Than One Generalist

arXiv: https://arxiv.org/abs/2603.21064
HF: https://huggingface.co/papers/2603.21064
카테고리: -
테마: Reasoning
우선순위 점수: 1.167
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 2Xplat은 카메라 포즈 추정과 3D 가우시안 생성을 분리한 2인 전문가(Two-Expert) 구조의 3DGS 프레임워크입니다. 기존의 통합형 모델과 달리 기하학적 추론과 외관 모델링을 명시적으로 분리하여 효율성을 높였습니다. 5,000회 미만의 학습만으로도 기존 포즈 프리 방식보다 우수한 성능을 보이며 포즈 기반 최신 모델 수준의 결과물을 생성합니다.
우리 팀 영향: 포즈 정보가 없는 멀티뷰 이미지로부터 고품질 3D 모델을 빠르게 생성해야 하는 서비스의 렌더링 품질과 학습 속도를 동시에 개선할 수 있습니다.
액션: 실험
액션 근거: 기존 통합형 아키텍처보다 적은 연산으로 높은 성능을 낸다는 점에서 모듈형 설계의 실효성을 직접 검증할 가치가 있습니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

9) PEARL: Personalized Streaming Video Understanding Model

arXiv: https://arxiv.org/abs/2603.20422
HF: https://huggingface.co/papers/2603.20422
카테고리: -
테마: Benchmark
우선순위 점수: 1.167
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 인간의 인지 과정과 유사하게 실시간 스트리밍 영상에서 새로운 개념을 인식하고 기억을 업데이트하는 PSVU(Personalized Streaming Video Understanding) 태스크를 정의했습니다. 이를 평가하기 위해 프레임 및 비디오 레벨의 정밀한 타임스탬프 주석이 포함된 PEARL-Bench 벤치마크를 구축했습니다. 또한 별도의 학습 없이 다양한 VLM 아키텍처에 적용 가능한 플러그 앤 플레이 방식의 PEARL 전략을 제안했습니다.
우리 팀 영향: 실시간 영상 스트림에서 개인화된 객체와 행동을 인식하는 기술은 향후 대화형 AI 어시스턴트의 개인화 성능 향상에 기여할 수 있습니다.
액션: 실험
액션 근거: 학습이 필요 없는 플러그 앤 플레이 방식이므로 기존 비디오 이해 모델에 적용하여 실시간 개인화 성능을 검증해 볼 가치가 있습니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

10) DA-Flow: Degradation-Aware Optical Flow Estimation with Diffusion Models

arXiv: https://arxiv.org/abs/2603.23499
HF: https://huggingface.co/papers/2603.23499
카테고리: -
테마: General
우선순위 점수: 1.133
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 실제 환경의 노이즈나 블러가 포함된 영상에서 광학 흐름(Optical Flow) 성능이 저하되는 문제를 해결하기 위해 이미지 복원 확산 모델의 중간 표현을 활용하는 DA-Flow를 제안합니다. 확산 모델의 특징에 시공간 주의집중 메커니즘을 추가하여 손상에 강인한 대응 관계를 추출하고, 이를 합성곱 특징과 결합하여 반복적으로 정교화합니다. 실험 결과 심각한 영상 품질 저하 조건에서도 기존 방식보다 우수한 성능을 입증했습니다.
우리 팀 영향: 저화질 또는 노이즈가 심한 실전 영상 데이터 처리 시 광학 흐름 추정의 정확도를 크게 개선할 수 있는 기술적 토대를 제공합니다.
액션: 실험
액션 근거: 확산 모델의 특징을 광학 흐름 추정에 활용하는 새로운 접근 방식이 실제 열악한 환경의 데이터 처리 효율성을 높일 가능성이 큽니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

11) SIMART: Decomposing Monolithic Meshes into Sim-ready Articulated Assets via MLLM

arXiv: https://arxiv.org/abs/2603.23386
HF: https://huggingface.co/papers/2603.23386
카테고리: -
테마: General
우선순위 점수: 1.1
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: SIMART는 단일 메시를 시뮬레이션 가능한 관절형 자산으로 변환하는 통합 MLLM 프레임워크입니다. Sparse 3D VQ-VAE를 도입하여 기존 밀집 복셀 방식 대비 토큰 수를 70% 절감하고 복잡한 부품 분해와 운동학 예측을 동시에 수행합니다. 이를 통해 PartNet-Mobility 등 데이터셋에서 우수한 성능을 보이며 로봇 시뮬레이션에 즉시 활용 가능한 자산을 생성합니다.
우리 팀 영향: 정적 3D 모델을 시뮬레이션용 관절 객체로 자동 변환함으로써 로봇 학습용 가상 환경 구축 비용을 크게 절감할 수 있습니다.
액션: 실험
액션 근거: 기존의 다단계 파이프라인 대비 효율적인 단일 단계 접근법과 토큰 절감 기술의 실효성을 검증할 가치가 있습니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

12) Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought

arXiv: https://arxiv.org/abs/2603.22847
HF: https://huggingface.co/papers/2603.22847
카테고리: -
테마: Reasoning
우선순위 점수: 1.1
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 멀티모달 CoT 추론 시 시각적 근거와 추론 단계의 특성이 다름에도 기존 RLVR 방식은 이를 일률적으로 최적화하는 한계가 있습니다. 본 논문은 토큰별 분석을 통해 지각적 근거와 탐색적 추론을 구분하는 PEPO 프레임워크를 제안하여 토큰 수준의 이점을 계산합니다. GRPO 및 DAPO와 같은 기존 프레임워크에 추가 감독 없이 통합 가능하며 다양한 멀티모달 벤치마크에서 성능 향상을 입증했습니다.
우리 팀 영향: 멀티모달 모델의 추론 과정에서 시각 정보 활용도에 따른 세밀한 정책 최적화 기법을 우리 팀의 강화학습 파이프라인에 적용해 볼 수 있습니다.
액션: 실험
액션 근거: 기존 RLVR 프레임워크에 큰 구조 변경 없이 통합 가능하며, 토큰 수준의 세밀한 보상 설계가 멀티모달 성능 향상에 기여할 가능성이 높기 때문입니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

13) VP-VLA: Visual Prompting as an Interface for Vision-Language-Action Models

arXiv: https://arxiv.org/abs/2603.22003
HF: https://huggingface.co/papers/2603.22003
카테고리: -
테마: Reasoning, Benchmark
우선순위 점수: 0.9
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: VP-VLA는 복잡한 명령을 하이레벨 플래너와 로우레벨 컨트롤러로 분리하여 시각적 프롬프트를 인터페이스로 사용하는 이중 시스템 프레임워크입니다. 시스템 2 플래너가 목표 객체와 위치를 시각적 앵커로 표시하면, 시스템 1 컨트롤러가 이를 바탕으로 정밀한 제어 신호를 생성합니다. Robocasa-GR1 및 SimplerEnv 벤치마크에서 기존 모델 대비 각각 5%와 8.3%의 성공률 향상을 기록했습니다.
우리 팀 영향: 시각적 프롬프트를 활용한 계층적 구조 도입을 통해 로봇 제어의 공간적 정밀도와 일반화 성능을 개선할 수 있습니다.
액션: 실험
액션 근거: 기존 VLA 모델의 블랙박스 구조를 개선하여 제어 정밀도를 높인 방법론이므로 내부 벤치마크 적용 가능성을 검토할 가치가 있습니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

14) ThinkJEPA: Empowering Latent World Models with Large Vision-Language Reasoning Model

arXiv: https://arxiv.org/abs/2603.22281
HF: https://huggingface.co/papers/2603.22281
카테고리: -
테마: Reasoning
우선순위 점수: 0.867
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: V-JEPA와 같은 잠재 세계 모델의 짧은 관측 창 문제를 해결하기 위해 VLM의 장기적 시각-언어 추론 능력을 결합한 ThinkJEPA 프레임워크를 제안합니다. 고밀도 프레임의 역학을 모델링하는 JEPA 브랜치와 장기적 시맨틱 가이던스를 제공하는 VLM 브랜치의 이중 경로 구조를 채택했습니다. 계층적 피라미드 표현 추출 모듈을 통해 VLM의 추론 신호를 잠재 예측에 적합한 가이드 기능으로 효과적으로 변환합니다.
우리 팀 영향: 고정밀 물리 역학 모델링과 장기적 의미론적 추론을 결합하여 로봇 조작 및 복잡한 비디오 예측 성능을 향상시킬 수 있습니다.
액션: 실험
액션 근거: 기존 JEPA 모델의 한계인 장기적 문맥 파악 능력을 VLM의 추론 능력으로 보완하는 구조가 타당하며 실험 결과가 우수하기 때문입니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

15) MultiBind: A Benchmark for Attribute Misbinding in Multi-Subject Generation

arXiv: https://arxiv.org/abs/2603.21937
HF: https://huggingface.co/papers/2603.21937
카테고리: -
테마: Benchmark, Evaluation
우선순위 점수: 0.767
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: MultiBind는 다중 객체 생성 시 발생하는 속성 오결합(attribute misbinding) 문제를 진단하기 위한 벤치마크입니다. 실제 다인물 사진을 기반으로 마스크, 바운딩 박스, 엔티티 인덱싱 프롬프트 등 정밀한 데이터를 제공합니다. 얼굴 정체성, 포즈, 표정 등 차원별 혼동 평가 프로토콜을 통해 객체 간 간섭 패턴을 정량적으로 분석합니다.
우리 팀 영향: 다중 객체 생성 모델 개발 시 객체 간 속성 뒤섞임 현상을 정밀하게 측정하고 개선 방향을 설정하는 데 활용할 수 있습니다.
액션: 실험
액션 근거: 기존의 단순 유사도 지표로 발견하기 어려운 다중 객체 간 간섭 및 오결합 문제를 체계적으로 평가할 수 있는 프레임워크이기 때문입니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

16) Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs

arXiv: https://arxiv.org/abs/2603.22446
HF: https://huggingface.co/papers/2603.22446
카테고리: -
테마: Reasoning, Fine-Tuning
우선순위 점수: 0.7
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 검증 가능한 보상 기반 강화학습(RLVR)이 LLM의 추론 능력을 향상시키는 메커니즘을 토큰 단위에서 분석했습니다. 연구 결과, RLVR은 전체 토큰이 아닌 매우 소수의 핵심적인 토큰 분포만을 선택적으로 변화시키며 성능을 개선한다는 점을 발견했습니다. 특히 RL 모델의 핵심 토큰 일부를 베이스 모델에 주입하는 것만으로도 성능 향상의 상당 부분을 복구할 수 있음을 실험으로 입증했습니다.
우리 팀 영향: 강화학습 기반 모델 튜닝 시 모든 토큰을 최적화하기보다 특정 핵심 토큰의 결정력을 높이는 효율적인 학습 전략 수립에 참고할 수 있습니다.
액션: 실험
액션 근거: 희소한 핵심 토큰의 변화가 전체 추론 성능을 결정한다는 분석 결과는 모델 효율화 및 디버깅 측면에서 실험적 가치가 높습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

17) VISion On Request: Enhanced VLLM efficiency with sparse, dynamically selected, vision-language interactions

arXiv: https://arxiv.org/abs/2603.23495
HF: https://huggingface.co/papers/2603.23495
카테고리: -
테마: Reasoning
우선순위 점수: 0.667
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: VISOR는 시각적 토큰을 압축하거나 삭제하는 대신, 텍스트와 이미지 토큰 간의 상호작용을 희소하게 구성하여 효율성을 높인 방법론입니다. 소수의 동적으로 선택된 자기 주의 집중 계층을 통해 고해상도 시각 정보를 필요할 때만 정밀하게 처리하며, 샘플의 복잡도에 따라 연산량을 조절합니다. 이를 통해 정보 손실 없이 추론 비용을 대폭 절감하면서도 세밀한 시각적 이해가 필요한 벤치마크에서 우수한 성능을 유지합니다.
우리 팀 영향: 시각적 정보의 손실 없이 고해상도 추론 효율을 개선할 수 있어, 자원 제약이 있는 환경에서의 멀티모달 모델 최적화에 기여할 수 있습니다.
액션: 실험
액션 근거: 토큰 압축 방식의 한계를 극복하고 동적 연산 할당을 통해 효율과 성능을 동시에 확보한 접근 방식이 실무적 가치가 높다고 판단됩니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

18) ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment

arXiv: https://arxiv.org/abs/2603.23376
HF: https://huggingface.co/papers/2603.23376
카테고리: -
테마: Benchmark, Evaluation
우선순위 점수: 0.667
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: ABot-PhysWorld는 물리적 법칙을 위배하는 기존 비디오 월드 모델의 한계를 극복하기 위해 제안된 14B 규모의 Diffusion Transformer 모델입니다. 물리 인지 주석이 포함된 300만 개의 클립으로 학습되었으며, DPO 기반 사후 학습 프레임워크를 통해 물리적 타당성과 시각적 품질을 동시에 확보했습니다. 또한 새로운 제로샷 벤치마크인 EZSbench를 도입하여 물리적 사실성과 동작 일관성을 정밀하게 평가합니다.
우리 팀 영향: 물리적 제약 조건이 강화된 비디오 생성 모델을 통해 로봇 조작 시뮬레이션의 신뢰성을 높이고 데이터 효율적인 학습 환경 구축에 기여할 수 있습니다.
액션: 실험
액션 근거: 기존 모델 대비 물리적 타당성이 검증된 월드 모델로서 로봇 제어 시뮬레이션 및 데이터 증강 도구로의 활용 가능성을 확인하기 위함입니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

19) VTAM: Video-Tactile-Action Models for Complex Physical Interaction Beyond VLAs

arXiv: https://arxiv.org/abs/2603.23481
HF: https://huggingface.co/papers/2603.23481
카테고리: -
테마: Reasoning
우선순위 점수: 0.633
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: VTAM은 시각 정보만으로 파악하기 어려운 접촉 중심의 복잡한 물리 상호작용을 위해 촉각 데이터를 통합한 비디오-액션 모델입니다. 사전 학습된 비디오 트랜스포머에 경량 모달리티 전이 파인튜닝을 적용하여 별도의 촉각-언어 데이터 없이도 효율적인 다중 모달 학습을 구현했습니다. 촉각 정규화 손실 함수를 통해 시각 정보에만 의존하는 현상을 방지하고 정밀한 힘 조절이 필요한 작업에서 성능을 크게 향상시켰습니다.
우리 팀 영향: 시각 기반 파운데이션 모델에 촉각 피드백을 효율적으로 통합하여 정밀 조작 성능을 개선하는 방법론을 우리 로봇 제어 알고리즘에 참고할 수 있습니다.
액션: 실험
액션 근거: 기존 VLA 모델의 한계인 접촉 정밀도를 촉각 센서 통합으로 극복한 구체적인 방법론과 성능 향상 폭이 유의미하기 때문입니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

20) RealMaster: Lifting Rendered Scenes into Photorealistic Video

arXiv: https://arxiv.org/abs/2603.23462
HF: https://huggingface.co/papers/2603.23462
카테고리: -
테마: General
우선순위 점수: 0.633
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: RealMaster는 3D 엔진의 렌더링 영상을 실사 수준의 비디오로 변환하는 비디오 확산 모델 기반의 프레임워크입니다. 앵커 기반 전파 전략을 통해 생성된 쌍 데이터를 학습하여, 3D 엔진의 기하학적 구조와 동역학을 유지하면서도 재질과 조명을 사실적으로 개선합니다. IC-LoRA를 활용하여 파이프라인의 제약을 넘어 일반화된 추론이 가능하도록 설계되었습니다.
우리 팀 영향: 3D 렌더링의 정밀한 제어력과 비디오 생성 모델의 실사 품질을 결합하여 고품질 가상 데이터 생성 및 콘텐츠 제작 효율을 높일 수 있습니다.
액션: 실험
액션 근거: 기존 비디오 편집 모델 대비 기하학적 일관성 유지 능력이 뛰어나며 GTA-V와 같은 복잡한 시나리오에서 성능이 검증되었기 때문입니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

21) STEM Agent: A Self-Adapting, Tool-Enabled, Extensible Architecture for Multi-Protocol AI Agent Systems

arXiv: https://arxiv.org/abs/2603.22359
HF: https://huggingface.co/papers/2603.22359
카테고리: -
테마: Agent
우선순위 점수: 0.633
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: STEM Agent는 생물학적 다분화능에서 영감을 얻어 설계된 모듈형 아키텍처로, 단일 코어가 다양한 프로토콜 핸들러와 도구 바인딩으로 분화됩니다. 5가지 상호운용성 프로토콜을 통합하고 MCP를 통해 도구 기능을 외부화하며, 반복되는 상호작용 패턴을 재사용 가능한 기술로 결정화하는 시스템을 갖추고 있습니다. 메모리 시스템은 에피소드 가지치기와 의미론적 중복 제거를 통해 지속적인 상호작용 환경에서도 효율적인 관리가 가능하도록 설계되었습니다.
우리 팀 영향: 다양한 통신 프로토콜 통합과 효율적인 메모리 관리 기법을 통해 복잡한 멀티 에이전트 시스템 구축 시 참조 모델로 활용할 수 있습니다.
액션: 실험
액션 근거: 생물학적 분화 개념을 차용한 기술 습득 방식과 MCP 기반의 도구 확장성이 실제 에이전트 성능 향상에 기여하는지 검증이 필요합니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

22) Session Risk Memory (SRM): Temporal Authorization for Deterministic Pre-Execution Safety Gates

arXiv: https://arxiv.org/abs/2603.22350
HF: https://huggingface.co/papers/2603.22350
카테고리: -
테마: Agent, Safety, Benchmark
우선순위 점수: 0.633
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 에이전트의 개별 행동은 안전하지만 전체 궤적에서 발생하는 분산 공격을 탐지하기 위해 Session Risk Memory(SRM)를 제안합니다. SRM은 세션의 행동 프로필을 의미론적 중심점으로 유지하고 지수 이동 평균을 통해 누적 위험 신호를 계산하는 경량 결정론적 모듈입니다. 실험 결과, 기존 상태 비저장 게이트 대비 0%의 오탐률과 1.0의 F1 스코어를 달성하며 세션 수준의 안전성을 강화했습니다.
우리 팀 영향: 에이전트의 다단계 권한 상승이나 데이터 유출 시도를 탐지하기 위한 저지연 세션 보안 레이어로 활용 가능합니다.
액션: 실험
액션 근거: 추가 학습 없이 기존 벡터 표현을 활용해 오탐을 제거하고 보안성을 높인다는 점에서 실무 적용 가치가 높습니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

23) Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing

arXiv: https://arxiv.org/abs/2603.12254
HF: https://huggingface.co/papers/2603.12254
카테고리: -
테마: Benchmark
우선순위 점수: 0.4
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: AutoGaze는 비디오의 시공간적 중복성을 제거하기 위해 ViT 또는 MLLM 처리 전 최소한의 멀티스케일 패치만을 선택하는 경량 모듈입니다. 자기회귀 방식과 강화학습을 통해 토큰 수를 4배에서 100배까지 줄여 4K 해상도의 1,000프레임 비디오 처리를 가능하게 합니다. VideoMME 등 주요 벤치마크에서 우수한 성능을 보였으며, 고해상도 장기 비디오 QA를 위한 HLVid 데이터셋을 함께 제안했습니다.
우리 팀 영향: 고해상도 장기 비디오 처리 시 발생하는 연산 비용 문제를 획기적으로 개선하여 효율적인 멀티모달 모델 서비스 구축에 기여할 수 있습니다.
액션: 실험
액션 근거: 토큰 수를 최대 100배까지 절감하면서도 성능 저하 없이 4K 비디오를 처리할 수 있다는 점에서 실무 적용 가치가 높습니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

24) AgentSLR: Automating Systematic Literature Reviews in Epidemiology with Agentic AI

arXiv: https://arxiv.org/abs/2603.22327
HF: https://huggingface.co/papers/2603.22327
카테고리: -
테마: RAG
우선순위 점수: 0.2
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: AgentSLR은 역학 분야의 체계적 문헌 고찰(SLR) 전 과정을 자동화하는 에이전트 기반 파이프라인입니다. 9종의 우선순위 병원체에 대해 검증한 결과, 인간 연구자 수준의 성능을 유지하면서 소요 시간을 약 7주에서 20시간으로 58배 단축했습니다. 5개의 프론티어 모델 비교를 통해 모델 크기보다 특정 기능적 역량이 SLR 성능에 더 큰 영향을 미침을 확인했습니다.
우리 팀 영향: 전문 도메인 지식 추출 및 요약 워크플로우를 에이전트 구조로 자동화하여 연구 효율성을 극대화하는 벤치마크로 활용할 수 있습니다.
액션: 실험
액션 근거: 기존 RAG 시스템을 넘어선 에이전트 기반의 문서 스크리닝 및 데이터 추출 성능이 실무 적용 가능성이 높다고 판단됩니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

25) TrajLoom: Dense Future Trajectory Generation from Video

arXiv: https://arxiv.org/abs/2603.22606
HF: https://huggingface.co/papers/2603.22606
카테고리: -
테마: Fine-Tuning, Benchmark
우선순위 점수: 0.133
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: TrajLoom은 비디오 컨텍스트와 과거 궤적을 기반으로 미래의 조밀한 점 궤적과 가시성을 예측하는 프레임워크입니다. VAE를 통한 시공간 잠재 공간 학습과 Flow Matching 기법을 활용하여 기존 24프레임 수준의 예측 길이를 81프레임까지 확장했습니다. 또한 실제 및 합성 비디오를 포함하는 표준화된 벤치마크인 TrajLoomBench를 제안하여 성능을 검증했습니다.
우리 팀 영향: 비디오 생성 및 편집 시 장기적인 객체 움직임의 일관성을 확보하기 위한 모션 가이드 기술로 활용될 가능성이 높습니다.
액션: 실험
액션 근거: 기존 대비 3배 이상 확장된 예측 길이와 Flow Matching 기반의 안정적인 생성 성능이 비디오 제어 연구에 유용할 것으로 판단됩니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

26) One View Is Enough! Monocular Training for In-the-Wild Novel View Generation

arXiv: https://arxiv.org/abs/2603.23488
HF: https://huggingface.co/papers/2603.23488
카테고리: -
테마: General
우선순위 점수: 0.1
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: OVIE는 다중 뷰 이미지 쌍 없이 단일 이미지 데이터만으로 학습 가능한 새로운 시점 합성 모델입니다. 단안 깊이 추정기를 기하학적 가이드로 활용하여 가상의 타겟 뷰를 생성하고, 가려진 영역을 제외한 마스크 기반 손실 함수를 통해 3,000만 개의 야생 이미지를 학습에 활용했습니다. 추론 시에는 깊이 추정기 없이도 기존 모델 대비 제로샷 성능이 우수하며 속도는 약 600배 빠릅니다.
우리 팀 영향: 데이터 수집 비용이 큰 다중 뷰 데이터셋 없이도 대규모 일반 이미지를 활용해 고성능 시점 합성 모델을 구축할 수 있는 가능성을 제시합니다.
액션: 실험
액션 근거: 추론 속도가 매우 빠르고 대규모 비정형 데이터로 학습 가능하다는 점에서 서비스 적용 가능성을 확인하기 위한 벤치마크 테스트가 필요합니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

27) Uncertainty-guided Compositional Alignment with Part-to-Whole Semantic Representativeness in Hyperbolic Vision-Language Models

arXiv: https://arxiv.org/abs/2603.22042
HF: https://huggingface.co/papers/2603.22042
카테고리: -
테마: RAG
우선순위 점수: 0.1
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 기존 유클리드 공간 기반 VLM의 계층 구조 표현 한계를 극복하기 위해 쌍곡선 공간(Hyperbolic space)을 활용한 UNCHA 프레임워크를 제안합니다. 이미지의 부분과 전체 사이의 의미론적 대표성을 불확실성(Uncertainty)으로 모델링하여 가중치 기반의 대조 학습을 수행합니다. 이를 통해 복잡한 다중 객체 장면에서 부분-전체 관계를 더 정확하게 학습하고 제로샷 분류 및 검색 성능을 향상시켰습니다.
우리 팀 영향: 이미지 내 객체 간 계층 구조와 부분-전체 관계를 정교하게 모델링해야 하는 시각 언어 이해 작업의 성능 향상에 기여할 수 있습니다.
액션: 실험
액션 근거: 쌍곡선 임베딩을 통한 계층 구조 학습 방식이 기존 유클리드 모델 대비 복잡한 장면 이해에 효과적인지 검증이 필요합니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

28) Regulating AI Agents

arXiv: https://arxiv.org/abs/2603.23471
HF: https://huggingface.co/papers/2603.23471
카테고리: -
테마: General
우선순위 점수: 0.067
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 본 논문은 자율적으로 목표를 수행하는 AI 에이전트의 확산에 따른 법적 쟁점과 EU AI Act의 한계를 분석합니다. 기존 규제 프레임워크가 자율적 과업 수행 중 발생하는 오류나 오남용 문제를 다루기에 부적합함을 지적합니다. 효과적인 거버넌스를 위해 모니터링 책임 할당과 제도적 프레임워크의 전면적인 수정이 필요함을 제안합니다.
우리 팀 영향: AI 에이전트 기반 서비스 개발 시 향후 강화될 글로벌 규제 준수 여부와 책임 소재에 대한 법적 리스크 관리가 필요합니다.
액션: 보류
액션 근거: 기술적 구현보다는 정책 및 규제 분석에 집중된 논문으로, 당장의 기술 도입이나 실험보다는 규제 동향 파악 수준에서 참고할 가치가 있습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

29) Reconstruction-Guided Slot Curriculum: Addressing Object Over-Fragmentation in Video Object-Centric Learning

arXiv: https://arxiv.org/abs/2603.22758
HF: https://huggingface.co/papers/2603.22758
카테고리: -
테마: General
우선순위 점수: 0.033
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 비디오 객체 중심 학습에서 발생하는 객체 과분할 문제를 해결하기 위해 재구성 오차 기반의 슬롯 커리큘럼(SlotCurri)을 제안합니다. 초기에는 적은 수의 슬롯으로 시작하여 오차가 높은 영역에만 슬롯을 점진적으로 추가하며, 구조 인식 손실 함수를 통해 의미적 경계를 명확히 합니다. 또한 순환 추론 기법을 도입하여 비디오 전반에 걸쳐 일관된 객체 표현을 생성합니다.
우리 팀 영향: 객체 과분할 문제를 억제하면서도 복잡한 비디오 데이터셋에서 높은 분할 성능을 달성하여 비디오 이해 모델의 효율성을 높일 수 있습니다.
액션: 실험
액션 근거: YouTube-VIS 및 MOVi-C 데이터셋에서 유의미한 FG-ARI 성능 향상을 입증하였으므로 기존 슬롯 어텐션 모델의 한계 극복 가능성을 검증할 가치가 있습니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

보류/무시

사유와 재검토일을 기록하세요.

논문 리뷰 2026-03-26 논문 리뷰 2026-03-24

​논문 리뷰 2026-03-25

​Daily Paper Review - 2026-03-25

​수집 요약

​Top Papers

​1) MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding

​2) From Static Templates to Dynamic Runtime Graphs: A Survey of Workflow Optimization for LLM Agents

​3) WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions and Explicit State toward Generative ARPG

​4) Ego2Web: A Web Agent Benchmark Grounded in Egocentric Videos

​5) SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning

​6) UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation

​7) Reasoning or Rhetoric? An Empirical Analysis of Moral Reasoning Explanations in Large Language Models

​8) 2Xplat: Two Experts Are Better Than One Generalist

​9) PEARL: Personalized Streaming Video Understanding Model

​10) DA-Flow: Degradation-Aware Optical Flow Estimation with Diffusion Models

​11) SIMART: Decomposing Monolithic Meshes into Sim-ready Articulated Assets via MLLM

​12) Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought

​13) VP-VLA: Visual Prompting as an Interface for Vision-Language-Action Models

​14) ThinkJEPA: Empowering Latent World Models with Large Vision-Language Reasoning Model

​15) MultiBind: A Benchmark for Attribute Misbinding in Multi-Subject Generation

​16) Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs

​17) VISion On Request: Enhanced VLLM efficiency with sparse, dynamically selected, vision-language interactions

​18) ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment

​19) VTAM: Video-Tactile-Action Models for Complex Physical Interaction Beyond VLAs

​20) RealMaster: Lifting Rendered Scenes into Photorealistic Video

​21) STEM Agent: A Self-Adapting, Tool-Enabled, Extensible Architecture for Multi-Protocol AI Agent Systems

​22) Session Risk Memory (SRM): Temporal Authorization for Deterministic Pre-Execution Safety Gates

​23) Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing

​24) AgentSLR: Automating Systematic Literature Reviews in Epidemiology with Agentic AI

​25) TrajLoom: Dense Future Trajectory Generation from Video

​26) One View Is Enough! Monocular Training for In-the-Wild Novel View Generation

​27) Uncertainty-guided Compositional Alignment with Part-to-Whole Semantic Representativeness in Hyperbolic Vision-Language Models

​28) Regulating AI Agents

​29) Reconstruction-Guided Slot Curriculum: Addressing Object Over-Fragmentation in Video Object-Centric Learning

​보류/무시

논문 리뷰 2026-03-25

Daily Paper Review - 2026-03-25

수집 요약

Top Papers

1) MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding

2) From Static Templates to Dynamic Runtime Graphs: A Survey of Workflow Optimization for LLM Agents

3) WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions and Explicit State toward Generative ARPG

4) Ego2Web: A Web Agent Benchmark Grounded in Egocentric Videos

5) SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning

6) UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation

7) Reasoning or Rhetoric? An Empirical Analysis of Moral Reasoning Explanations in Large Language Models

8) 2Xplat: Two Experts Are Better Than One Generalist

9) PEARL: Personalized Streaming Video Understanding Model

10) DA-Flow: Degradation-Aware Optical Flow Estimation with Diffusion Models

11) SIMART: Decomposing Monolithic Meshes into Sim-ready Articulated Assets via MLLM

12) Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought

13) VP-VLA: Visual Prompting as an Interface for Vision-Language-Action Models

14) ThinkJEPA: Empowering Latent World Models with Large Vision-Language Reasoning Model

15) MultiBind: A Benchmark for Attribute Misbinding in Multi-Subject Generation

16) Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs

17) VISion On Request: Enhanced VLLM efficiency with sparse, dynamically selected, vision-language interactions

18) ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment

19) VTAM: Video-Tactile-Action Models for Complex Physical Interaction Beyond VLAs

20) RealMaster: Lifting Rendered Scenes into Photorealistic Video

21) STEM Agent: A Self-Adapting, Tool-Enabled, Extensible Architecture for Multi-Protocol AI Agent Systems

22) Session Risk Memory (SRM): Temporal Authorization for Deterministic Pre-Execution Safety Gates

23) Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing

24) AgentSLR: Automating Systematic Literature Reviews in Epidemiology with Agentic AI

25) TrajLoom: Dense Future Trajectory Generation from Video

26) One View Is Enough! Monocular Training for In-the-Wild Novel View Generation

27) Uncertainty-guided Compositional Alignment with Part-to-Whole Semantic Representativeness in Hyperbolic Vision-Language Models

28) Regulating AI Agents

29) Reconstruction-Guided Slot Curriculum: Addressing Object Over-Fragmentation in Video Object-Centric Learning

보류/무시