논문 리뷰 2026-03-23

기준일: 2026-03-23
수집 건수(중복 제거): 32
발행 Top N: 32
원본 리포트: trend/reports/daily/2026-03-23.md
마지막 갱신: 2026-03-24 00:02:43

Daily Paper Review - 2026-03-23

수집 요약

총 수집(중복 제거 후): 32
발행 Top N: 32
LLM 요약 성공: 32
LLM 요약 폴백: 0

Top Papers

1) HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning

arXiv: https://arxiv.org/abs/2603.17024
HF: https://huggingface.co/papers/2603.17024
카테고리: -
테마: Reasoning, Benchmark
우선순위 점수: 3.467
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: HopChain은 VLM의 세밀한 시각-언어 추론 능력을 강화하기 위해 논리적으로 연결된 멀티홉 데이터를 합성하는 프레임워크입니다. 각 쿼리는 이전 단계의 시각적 근거가 다음 단계의 조건이 되는 체인 구조로 설계되었으며, 최종 답변은 검증 가능한 수치 형태로 도출됩니다. Qwen3.5 모델에 적용한 결과, 특정 벤치마크를 타겟팅하지 않았음에도 24개 중 20개 지표에서 성능 향상을 보였습니다.
우리 팀 영향: 복잡한 시각적 추론이 필요한 태스크에서 모델의 논리적 일관성과 장기 추론(Long-CoT) 능력을 개선하는 데 기여할 수 있습니다.
액션: 실험
액션 근거: 멀티홉 데이터 합성을 통해 VLM의 고질적인 문제인 환각 현상을 줄이고 일반화된 추론 성능을 높인 결과가 확인되었기 때문입니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

2) Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models

arXiv: https://arxiv.org/abs/2603.17051
HF: https://huggingface.co/papers/2603.17051
카테고리: -
테마: Fine-Tuning
우선순위 점수: 2.733
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: Astrolabe는 증류된 자기회귀(AR) 비디오 모델을 위한 효율적인 온라인 강화학습 프레임워크로, 역과정 최적화 없이 순방향 프로세스에서 직접 정책을 개선합니다. 스트리밍 학습 기법과 롤링 KV-캐시를 활용하여 긴 비디오 생성 시에도 일관성을 유지하며 메모리 오버헤드를 줄였습니다. 또한 다중 보상 목표와 불확실성 기반 정규화를 통해 리워드 해킹 문제를 완화하고 생성 품질을 높였습니다.
우리 팀 영향: 증류된 AR 비디오 모델의 정렬 효율성을 높여 적은 자원으로도 고품질의 긴 비디오 생성 서비스 구현이 가능해질 것으로 기대됩니다.
액션: 실험
액션 근거: 기존 RL 방식보다 연산 효율이 높고 긴 비디오 생성에 특화된 스트리밍 학습 구조를 갖추고 있어 실무 적용 가능성이 높기 때문입니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

3) A Subgoal-driven Framework for Improving Long-Horizon LLM Agents

arXiv: https://arxiv.org/abs/2603.19685
HF: https://huggingface.co/papers/2603.19685
카테고리: -
테마: Agent, LLM, Reasoning
우선순위 점수: 2.133
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 본 논문은 긴 작업 경로를 가진 LLM 에이전트의 성능 향상을 위해 하위 목표 분할 기반의 온라인 계획 프레임워크와 MiRA라는 강화학습 학습법을 제안합니다. MiRA는 밀집된 마일스톤 기반 보상 신호를 사용하여 Gemma3-12B 모델의 WebArena-Lite 성공률을 6.4%에서 43.0%로 크게 개선했습니다. 이를 통해 오픈소스 모델이 GPT-4o와 같은 상용 모델의 성능을 상회할 수 있음을 입증했습니다.
우리 팀 영향: 마일스톤 기반 보상 설계와 하위 목표 분할 기법을 활용하여 복잡한 웹 탐색 에이전트의 성능을 획기적으로 개선할 수 있습니다.
액션: 실험
액션 근거: 오픈소스 모델인 Gemma3-12B가 상용 모델을 능가하는 성능을 보여주었으므로, 제안된 MiRA 프레임워크의 내부 프로젝트 적용 가능성을 검증할 가치가 큽니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

4) HiMu: Hierarchical Multimodal Frame Selection for Long Video Question Answering

arXiv: https://arxiv.org/abs/2603.18558
HF: https://huggingface.co/papers/2603.18558
카테고리: -
테마: Agent, LLM, Reasoning
우선순위 점수: 2.067
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: HiMu는 긴 비디오 질의응답을 위해 텍스트 전용 LLM을 사용하여 쿼리를 계층적 논리 트리로 분해하고 프레임을 선택하는 프레임워크입니다. 시각, 오디오 등 다양한 모달리티 전문가의 신호를 퍼지 논리 연산자로 결합하여 시간적 선후 관계를 반영한 최적의 프레임을 추출합니다. 별도의 학습 없이도 기존 에이전트 방식 대비 10배 적은 연산량으로 높은 정확도를 달성했습니다.
우리 팀 영향: 제한된 컨텍스트 윈도우 내에서 긴 비디오의 핵심 정보를 효율적으로 추출하여 멀티모달 모델의 추론 성능을 개선할 수 있습니다.
액션: 실험
액션 근거: 학습 없이도 논리적 구조를 통해 효율적인 프레임 선택이 가능하므로 기존 비디오 QA 파이프라인의 비용 절감 효과를 검증할 가치가 있습니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

5) TerraScope: Pixel-Grounded Visual Reasoning for Earth Observation

arXiv: https://arxiv.org/abs/2603.19039
HF: https://huggingface.co/papers/2603.19039
카테고리: -
테마: Reasoning, Benchmark
우선순위 점수: 1.933
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: TerraScope는 광학 및 SAR 데이터를 유연하게 융합하고 시계열 변화를 분석하는 픽셀 기반의 지구 관측용 시각 언어 모델입니다. 100만 개의 샘플과 픽셀 수준 마스크를 포함한 Terra-CoT 데이터셋을 통해 복잡한 공간 추론 능력을 강화했습니다. 또한 정답 정확도와 마스크 품질을 동시에 평가하는 TerraScope-Bench를 제안하여 모델의 해석 가능성을 입증했습니다.
우리 팀 영향: 다중 모달리티 융합 및 시계열 변화 탐지 기능을 갖춘 픽셀 단위 추론 모델은 정밀한 지리 공간 분석 서비스 개발에 기여할 수 있습니다.
액션: 실험
액션 근거: 광학 및 SAR 데이터의 적응형 융합과 시계열 분석 기능이 실제 지리 공간 문제 해결에 실용적이며, 공개된 대규모 데이터셋의 활용 가치가 높기 때문입니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

arXiv: https://arxiv.org/abs/2603.19453
HF: https://huggingface.co/papers/2603.19453
카테고리: -
테마: Agent, LLM, Safety
우선순위 점수: 1.9
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 본 논문은 다중 에이전트 환경에서 LLM을 활용해 파이썬 기반 에이전트 정책을 반복적으로 생성하고 최적화하는 프레임워크를 제안합니다. 단순 보상값만 제공하는 것보다 사회적 지표(효율성, 평등성 등)를 포함한 조밀한 피드백을 제공할 때 협력 전략 수립 성능이 더 우수함을 입증했습니다. 또한 LLM 정책 합성 과정에서 발생할 수 있는 5가지 공격 유형을 정의하고 이에 대한 안전성 문제를 논의합니다.
우리 팀 영향: 강화학습 없이 LLM 프롬프팅과 코드 생성을 통해 복잡한 사회적 딜레마를 해결하는 에이전트 정책을 설계하는 방법론을 참고할 수 있습니다.
액션: 실험
액션 근거: LLM 기반 정책 합성 시 피드백 설계가 에이전트의 협력 및 조정 능력에 미치는 영향이 크므로, 내부 에이전트 시스템에 적용 가능성을 테스트할 가치가 있습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

7) The Y-Combinator for LLMs: Solving Long-Context Rot with λ-Calculus

arXiv: https://arxiv.org/abs/2603.20105
HF: https://huggingface.co/papers/2603.20105
카테고리: -
테마: LLM, Reasoning
우선순위 점수: 1.8
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: λ-RLM은 고정된 컨텍스트 윈도우 문제를 해결하기 위해 자유 형식의 코드 생성 대신 람다 대수 기반의 정형화된 함수형 런타임을 사용하는 프레임워크입니다. 이 방식은 재귀적 추론을 구조화된 프로그램으로 변환하여 실행의 예측 가능성과 분석 가능성을 높이며, 종료 보장 및 비용 경계와 같은 공식적인 보증을 제공합니다. 실험 결과, 9개 모델과 4개 작업에서 기존 방식 대비 평균 정확도가 최대 21.9점 향상되었고 지연 시간은 최대 4.1배 감소했습니다.
우리 팀 영향: 긴 컨텍스트 처리가 필요한 추론 작업에서 비정형 코드 생성 대신 정형화된 함수형 제어 구조를 도입하여 성능과 신뢰성을 동시에 확보할 수 있습니다.
액션: 실험
액션 근거: 기존 RLM 대비 높은 정확도 향상과 지연 시간 감소가 입증되었으며, 오픈소스 구현체가 제공되어 기술 검증이 용이하기 때문입니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

8) Hyperagents

arXiv: https://arxiv.org/abs/2603.19461
HF: https://huggingface.co/papers/2603.19461
카테고리: -
테마: Agent, Evaluation
우선순위 점수: 1.533
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: Hyperagents는 작업 수행 에이전트와 자기 수정 메타 에이전트를 단일 편집 가능 프로그램으로 통합한 자기 참조형 에이전트 프레임워크입니다. 기존의 고정된 메타 메커니즘과 달리, 수정 절차 자체를 개선함으로써 코딩 도메인에 국한되지 않고 모든 계산 가능한 작업에서 자기 가속적 발전을 목표로 합니다. 실험 결과, DGM-H는 메타 수준의 개선 사항을 축적하고 도메인 간 전이를 통해 기존 시스템보다 우수한 성능을 보였습니다.
우리 팀 영향: 에이전트의 성능 개선 로직 자체를 자동화하고 최적화하는 메타 학습 구조를 통해 범용 에이전트 개발 효율성을 높일 수 있습니다.
액션: 실험
액션 근거: 메타 수준의 자기 수정 메커니즘이 실제 도메인 간 전이 성능을 향상시키는지 내부 벤치마크를 통한 검증이 필요합니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

9) Reasoning as Compression: Unifying Budget Forcing via the Conditional Information Bottleneck

arXiv: https://arxiv.org/abs/2603.08462
HF: https://huggingface.co/papers/2603.08462
카테고리: -
테마: LLM, Reasoning, Fine-Tuning
우선순위 점수: 1.533
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 본 논문은 LLM의 추론 과정을 정보 이론의 조건부 정보 병목(CIB) 원칙으로 재구성하여 효율적인 추론 압축 방법을 제안합니다. 기존의 단순 토큰 길이 제한 방식과 달리, 프롬프트에서 직접 얻을 수 없는 응답 관련 정보만을 추론 과정에 남기도록 RL 목적 함수를 설계했습니다. 이를 통해 불필요한 추론(Cognitive Bloat)을 제거하면서도 논리적 일관성과 정확도를 유지하는 성과를 보였습니다.
우리 팀 영향: 추론 비용 최적화가 필요한 서비스 모델에서 성능 저하를 최소화하며 토큰 사용량을 줄이는 미세 조정 전략으로 활용 가능합니다.
액션: 실험
액션 근거: 단순 길이 페널티보다 이론적으로 견고한 CIB 기반 압축 방식이 실제 추론 효율 개선에 효과적인지 검증이 필요합니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

10) Language on Demand, Knowledge at Core: Composing LLMs with Encoder-Decoder Translation Models for Extensible Multilinguality

arXiv: https://arxiv.org/abs/2603.17512
HF: https://huggingface.co/papers/2603.17512
카테고리: -
테마: LLM, Reasoning
우선순위 점수: 1.267
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: XBridge는 LLM의 지식 처리 능력과 사전 학습된 번역 모델의 다국어 능력을 결합한 구성적 아키텍처를 제안합니다. 경량 매핑 레이어와 최적 운송 기반 정렬 목적 함수를 통해 모델 간 표현 불일치를 해결하고 의미론적 일관성을 확보했습니다. 실험 결과, LLM 재학습 없이도 저자원 언어 및 미학습 언어에 대한 이해와 추론 성능이 크게 향상되었습니다.
우리 팀 영향: 기존 LLM의 다국어 확장 비용을 줄이면서도 저자원 언어 서비스 품질을 개선할 수 있는 효율적인 방법론을 제공합니다.
액션: 실험
액션 근거: 추가적인 LLM 전체 튜닝 없이 외부 번역 모델과의 결합만으로 다국어 성능을 확장할 수 있어 리소스 효율성이 높기 때문입니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

11) FlowScene: Style-Consistent Indoor Scene Generation with Multimodal Graph Rectified Flow

arXiv: https://arxiv.org/abs/2603.19598
HF: https://huggingface.co/papers/2603.19598
카테고리: -
테마: RAG, Reasoning
우선순위 점수: 1.233
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: FlowScene은 멀티모달 그래프를 기반으로 실내 장면의 레이아웃, 객체 형상 및 텍스처를 통합 생성하는 모델입니다. 밀결합된 Rectified Flow 모델을 통해 객체 간 정보를 교환하며 장면 전체의 스타일 일관성을 유지합니다. 기존 언어 및 그래프 기반 방식보다 현실성 및 사용자 선호도 측면에서 우수한 성능을 보입니다.
우리 팀 영향: 그래프 구조를 활용한 스타일 일관성 유지 기법을 통해 정교한 3D 에셋 및 장면 생성 워크플로우의 품질을 개선할 수 있습니다.
액션: 실험
액션 근거: 객체 간 관계를 명시적으로 모델링하여 스타일 일관성을 확보하는 방식이 논리적이며 실무 적용 가능성이 높기 때문입니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

12) s2n-bignum-bench: A practical benchmark for evaluating low-level code reasoning of LLMs

arXiv: https://arxiv.org/abs/2603.14628
HF: https://huggingface.co/papers/2603.14628
카테고리: -
테마: LLM, Reasoning, Benchmark
우선순위 점수: 1.233
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: AWS의 암호화 라이브러리인 s2n-bignum의 어셈블리 루틴을 기반으로 한 LLM용 저수준 코드 추론 벤치마크입니다. 기존 수학 경시대회 중심의 벤치마크와 달리, 실제 산업 현장에서 사용되는 코드의 정형 검증 및 HOL Light 증명 스크립트 생성 능력을 평가합니다. 전문가가 작성한 명세를 바탕으로 LLM이 기계가 검증 가능한 증명을 생성할 수 있는지 테스트하는 환경을 제공합니다.
우리 팀 영향: 실제 산업용 저수준 코드의 정형 검증 자동화 가능성을 타진하고 LLM의 논리적 추론 성능을 객관적으로 측정하는 지표로 활용할 수 있습니다.
액션: 실험
액션 근거: 실제 산업 환경의 암호화 코드 검증이라는 실용적인 도메인에서 LLM의 추론 능력을 정밀하게 평가할 수 있는 벤치마크이기 때문입니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

13) Deep Tabular Research via Continual Experience-Driven Execution

arXiv: https://arxiv.org/abs/2603.09151
HF: https://huggingface.co/papers/2603.09151
카테고리: -
테마: Reasoning
우선순위 점수: 0.967
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 비정형 표 데이터에서 복잡한 추론을 수행하기 위해 계층적 메타 그래프와 폐쇄 루프 의사결정 프로세스를 결합한 에이전트 프레임워크를 제안합니다. 기대 인식 선택 정책을 통해 고효율 실행 경로를 우선시하며, 과거 실행 결과를 구조화된 메모리에 저장하여 지속적으로 추론 과정을 개선합니다. 실험을 통해 장기적 추론이 필요한 표 분석 작업에서 전략적 계획과 저수준 실행을 분리하는 방식의 효과를 입증했습니다.
우리 팀 영향: 복잡한 계층 구조를 가진 비정형 표 데이터 분석 시 LLM의 추론 정확도와 효율성을 크게 향상시킬 수 있습니다.
액션: 실험
액션 근거: 비정형 데이터에 대한 다단계 추론 성능이 우수하고 구조화된 메모리 활용 방식이 실무 적용 가능성이 높기 때문입니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

14) WorldAgents: Can Foundation Image Models be Agents for 3D World Models?

arXiv: https://arxiv.org/abs/2603.19708
HF: https://huggingface.co/papers/2603.19708
카테고리: -
테마: Agent, Benchmark
우선순위 점수: 0.9
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 2D 기반 이미지 생성 모델과 시각 언어 모델(VLM)이 내재적인 3D 월드 모델링 능력을 갖추고 있는지 조사하고 이를 벤치마킹했습니다. VLM 기반 디렉터, 이미지 생성기, 2D/3D 검증기로 구성된 멀티 에이전트 아키텍처를 통해 일관성 있는 3D 장면 합성을 구현했습니다. 실험 결과 2D 파운데이션 모델들이 3D 세계에 대한 이해도를 갖추고 있으며, 에이전트 방식을 통해 현실적이고 일관된 3D 월드 생성이 가능함을 입증했습니다.
우리 팀 영향: 기존 2D 생성 모델을 멀티 에이전트 구조로 활용하여 고품질의 3D 일관된 환경을 구축하는 방법론을 우리 팀의 가상 환경 생성 파이프라인에 적용할 수 있습니다.
액션: 실험
액션 근거: 높은 우선순위 점수와 더불어 기존 2D 모델의 잠재력을 활용한 3D 합성 방식이 실용적이며 기술적 타당성이 높다고 판단됩니다.
요약 신뢰도(모델): 0.92
리뷰 메모:

15) LoopRPT: Reinforcement Pre-Training for Looped Language Models

arXiv: https://arxiv.org/abs/2603.19714
HF: https://huggingface.co/papers/2603.19714
카테고리: -
테마: Reasoning
우선순위 점수: 0.8
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: LoopRPT는 루프형 언어 모델(LoopLMs)의 잠재적 추론 과정을 최적화하기 위한 강화 사전 학습 프레임워크입니다. EMA 교사 모델과 노이즈 잠재 롤아웃을 활용해 보상 신호를 잠재 단계에 직접 부여함으로써 중간 표현의 품질을 개선합니다. 이를 통해 모델은 더 적은 반복 횟수로도 높은 정확도를 달성하며 효율적인 추론 성능을 보여줍니다.
우리 팀 영향: 잠재 공간 내의 반복 연산을 최적화하여 명시적인 CoT 없이도 추론 효율성을 극대화하는 아키텍처 설계에 기여할 수 있습니다.
액션: 실험
액션 근거: 루프형 모델의 연산 효율성과 정확도 간의 트레이드오프를 개선하는 방식이 실용적이며 기존 RL 방식과의 차별점이 명확하기 때문입니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

16) ProactiveBench: Benchmarking Proactiveness in Multimodal Large Language Models

arXiv: https://arxiv.org/abs/2603.19466
HF: https://huggingface.co/papers/2603.19466
카테고리: -
테마: Fine-Tuning, Benchmark
우선순위 점수: 0.767
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: ProactiveBench는 멀티모달 대형 언어 모델(MLLM)이 가려진 물체 식별이나 이미지 품질 개선을 위해 사용자에게 개입을 요청하는 ‘능동성’을 평가하는 벤치마크입니다. 22개의 모델을 테스트한 결과, 모델의 크기나 성능이 능동성과 비례하지 않으며 대화 이력이나 인컨텍스트 학습이 오히려 부정적인 영향을 미치는 것으로 나타났습니다. 강화 학습 기반의 미세 조정을 통해 능동적 행동이 학습 가능하며 미학습 시나리오까지 일반화될 수 있음을 확인했습니다.
우리 팀 영향: 사용자 협업이 필요한 멀티모달 서비스 개발 시 모델의 수동적 응답 한계를 극복하기 위한 학습 전략 수립에 기여할 수 있습니다.
액션: 실험
액션 근거: 강화 학습을 통한 능동성 개선 가능성이 확인되었으므로, 서비스 시나리오에서 모델의 선제적 질문 능력을 강화하는 실험이 가치가 있다고 판단됩니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

17) AgentDS Technical Report: Benchmarking the Future of Human-AI Collaboration in Domain-Specific Data Science

arXiv: https://arxiv.org/abs/2603.19005
HF: https://huggingface.co/papers/2603.19005
카테고리: -
테마: Reasoning, Benchmark
우선순위 점수: 0.7
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: AgentDS는 6개 산업 분야의 17개 과제를 통해 AI 에이전트와 인간의 협업 성능을 평가하는 도메인 특화 데이터 과학 벤치마크입니다. 실험 결과, 현재 AI 에이전트는 도메인별 추론 능력에서 한계를 보이며 단독 수행 시 참가자 중앙값 이하의 성능을 기록했습니다. 가장 우수한 성과는 인간과 AI가 협업했을 때 나타났으며, 이는 데이터 과학 분야에서 인간의 전문성이 여전히 필수적임을 시사합니다.
우리 팀 영향: 도메인 특화 데이터 과학 과제에서 AI 에이전트의 한계를 파악하고, 인간의 개입이 필요한 지점을 정의하는 벤치마크로 활용할 수 있습니다.
액션: 실험
액션 근거: 제공된 오픈소스 데이터셋과 벤치마크를 활용하여 현재 개발 중인 에이전트의 도메인 추론 능력을 객관적으로 측정해볼 가치가 있습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

18) LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation

arXiv: https://arxiv.org/abs/2603.20192
HF: https://huggingface.co/papers/2603.20192
카테고리: -
테마: Benchmark
우선순위 점수: 0.667
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: LumosX는 다중 피사체 비디오 생성 시 얼굴과 속성 간의 정렬 문제를 해결하기 위해 데이터 파이프라인과 모델 구조를 개선한 프레임워크입니다. MLLM을 활용해 피사체별 의존성을 추론하는 데이터 수집 파이프라인과 관계형 셀프/크로스 어텐션 메커니즘을 도입했습니다. 이를 통해 여러 인물이 등장하는 영상에서도 각 인물의 정체성과 속성을 일관되게 유지하며 제어할 수 있습니다.
우리 팀 영향: 다중 인물 비디오 생성 시 발생하는 속성 혼선 문제를 해결하기 위한 관계형 어텐션 구조와 데이터 정제 방법론을 참고할 수 있습니다.
액션: 실험
액션 근거: 개인화된 비디오 생성에서 다중 피사체의 정체성 유지 성능이 우수하며 오픈소스 코드가 제공되어 기술 검증이 가능하기 때문입니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

19) Teaching an Agent to Sketch One Part at a Time

arXiv: https://arxiv.org/abs/2603.19500
HF: https://huggingface.co/papers/2603.19500
카테고리: -
테마: Agent, Fine-Tuning
우선순위 점수: 0.667
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 벡터 스케치를 부품 단위로 생성하기 위해 ControlSketch-Part 데이터셋과 멀티턴 프로세스 보상 강화학습 기반의 에이전트를 개발했습니다. 자동 주석 파이프라인을 통해 벡터 스케치를 의미론적 부품으로 분할하고, 시각적 피드백을 통해 텍스트 기반 벡터 생성을 제어합니다. 이 방식은 생성 과정의 해석 가능성을 높이고 국소적인 편집을 가능하게 합니다.
우리 팀 영향: 부품 단위의 벡터 데이터셋 구축 방식과 멀티턴 강화학습 구조를 활용하여 정교한 벡터 그래픽 생성 및 편집 도구 개발에 참고할 수 있습니다.
액션: 실험
액션 근거: 벡터 그래픽의 국소적 편집과 제어 가능성을 높이는 데이터셋 구축 및 학습 방법론이 실무적 가치가 높다고 판단됩니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

20) ReLMXEL: Adaptive RL-Based Memory Controller with Explainable Energy and Latency Optimization

arXiv: https://arxiv.org/abs/2603.17309
HF: https://huggingface.co/papers/2603.17309
카테고리: -
테마: Agent
우선순위 점수: 0.633
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: ReLMXEL은 메모리 컨트롤러의 지연 시간과 에너지 소비를 최적화하기 위해 다중 에이전트 온라인 강화학습 프레임워크를 제안합니다. 보상 분해 기법을 통해 메모리 동작 지표를 학습에 활용하며, 워크로드별 특성에 맞춘 동적 파라미터 최적화를 수행합니다. 설명 가능한 AI(XAI) 요소를 도입하여 제어 결정의 투명성을 높이고 성능 향상을 동시에 달성했습니다.
우리 팀 영향: 메모리 컨트롤러 수준의 하드웨어 최적화에 강화학습을 적용하고 의사결정 근거를 제공하는 방식은 저전력 시스템 설계에 참고할 가치가 있습니다.
액션: 실험
액션 근거: 워크로드별 동적 최적화 성능이 검증되었으므로, 실제 메모리 집약적 작업 환경에서의 효율성 개선 여부를 테스트할 필요가 있습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

21) Versatile Editing of Video Content, Actions, and Dynamics without Training

arXiv: https://arxiv.org/abs/2603.17989
HF: https://huggingface.co/papers/2603.17989
카테고리: -
테마: General
우선순위 점수: 0.333
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: DynaEdit은 별도의 학습 없이 사전 학습된 텍스트-비디오 흐름 모델을 사용하여 비디오 내 동작, 상호작용 및 전역 효과를 편집하는 프레임워크입니다. 기존의 학습 기반 모델이 데이터 부족으로 어려움을 겪던 복잡한 동작 수정 및 객체 삽입 문제를 해결하기 위해 인버전 프리(inversion-free) 방식을 채택했습니다. 저주파 정렬 오류와 고주파 지터 현상을 극복하는 메커니즘을 도입하여 모델에 구애받지 않는 범용적인 편집 성능을 보여줍니다.
우리 팀 영향: 추가 학습 없이도 비디오 내 객체의 동작이나 상호작용을 정밀하게 제어할 수 있어 영상 콘텐츠 제작 효율성을 크게 높일 수 있습니다.
액션: 실험
액션 근거: 학습 없이도 복잡한 동작 편집이 가능하다는 점에서 기존 기술의 한계를 극복할 가능성이 높아 실제 성능 검증이 필요합니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

22) How Well Does Generative Recommendation Generalize?

arXiv: https://arxiv.org/abs/2603.19809
HF: https://huggingface.co/papers/2603.19809
카테고리: -
테마: General
우선순위 점수: 0.267
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 생성형 추천(GR) 모델이 기존 아이템 ID 기반 모델보다 일반화 능력이 뛰어나다는 가설을 체계적으로 검증한 연구입니다. 실험 결과 GR 모델은 학습되지 않은 아이템 전이 패턴을 예측하는 일반화에 강점이 있는 반면, ID 기반 모델은 기존 패턴을 재사용하는 암기에 더 유리한 것으로 나타났습니다. GR의 일반화는 실제로는 토큰 수준의 암기에 기반한다는 점을 밝혀냈으며, 두 모델의 상호 보완성을 활용한 적응형 결합 지표를 제안했습니다.
우리 팀 영향: 추천 시스템 설계 시 아이템의 노출 빈도나 패턴의 신규성에 따라 생성형 방식과 ID 기반 방식을 선택적으로 적용하여 성능을 최적화할 수 있습니다.
액션: 실험
액션 근거: 제안된 암기 인식 지표(memorization-aware indicator)를 활용해 기존 추천 모델의 일반화 성능을 개선할 수 있는지 검증이 필요합니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

23) BEAVER: A Training-Free Hierarchical Prompt Compression Method via Structure-Aware Page Selection

arXiv: https://arxiv.org/abs/2603.19635
HF: https://huggingface.co/papers/2603.19635
카테고리: -
테마: RAG, Benchmark
우선순위 점수: 0.267
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: BEAVER는 긴 문맥의 LLM 추론 지연을 해결하기 위해 학습이 필요 없는 계층적 프롬프트 압축 프레임워크를 제안합니다. 가변 길이 문맥을 페이지 단위 텐서로 매핑하고 의미론적·어휘적 이중 분기 선택과 문장 평활화를 통해 담화의 일관성을 유지합니다. 128k 문맥에서 지연 시간을 26.4배 단축하면서도 다중 정보 검색 성능을 효과적으로 보존합니다.
우리 팀 영향: 추가 학습 없이도 긴 문맥의 추론 속도를 획기적으로 개선할 수 있어 대규모 문서 기반 RAG 시스템의 효율성을 높일 수 있습니다.
액션: 실험
액션 근거: 학습 비용 없이 기존 SOTA 모델과 대등한 성능을 보이면서도 추론 속도 개선 효과가 매우 크기 때문에 실제 서비스 적용 가능성을 검증할 가치가 있습니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

24) EgoForge: Goal-Directed Egocentric World Simulator

arXiv: https://arxiv.org/abs/2603.20169
HF: https://huggingface.co/papers/2603.20169
카테고리: -
테마: General
우선순위 점수: 0.167
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: EgoForge는 단일 1인칭 이미지와 고수준 지시사항만으로 일관된 1인칭 비디오 시뮬레이션을 생성하는 세계 모델입니다. VideoDiffusionNFT라는 궤적 수준의 보상 가이드 정제 방식을 통해 목표 달성도와 시간적 일관성, 기하학적 안정성을 개선했습니다. 기존 방식과 달리 조밀한 카메라 궤적이나 긴 비디오 프리픽스 없이도 의도에 부합하는 1인칭 상호작용 영상을 생성합니다.
우리 팀 영향: 최소한의 입력으로 복잡한 1인칭 행동 시나리오를 시뮬레이션할 수 있어 스마트 글래스 및 로봇 학습용 데이터 증강에 기여할 수 있습니다.
액션: 실험
액션 근거: 1인칭 시점의 급격한 변화와 손-물체 상호작용을 효과적으로 모델링하는 기술적 차별성이 있어 성능 검증이 가치가 있습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

25) Beyond Single Tokens: Distilling Discrete Diffusion Models via Discrete MMD

arXiv: https://arxiv.org/abs/2603.20155
HF: https://huggingface.co/papers/2603.20155
카테고리: -
테마: General
우선순위 점수: 0.1
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 이 논문은 이산 확산 모델(Discrete Diffusion Models)의 증류를 위해 연속 도메인의 모멘트 매칭 기법을 적용한 D-MMD 방법론을 제안합니다. 기존 이산 증류 방식의 성능 저하 문제를 해결하여 적은 샘플링 단계에서도 높은 품질과 다양성을 유지하도록 설계되었습니다. 텍스트와 이미지 데이터셋 실험을 통해 증류된 생성 모델이 교사 모델의 성능을 능가할 수 있음을 입증했습니다.
우리 팀 영향: 이산 확산 모델 기반의 텍스트 및 이미지 생성 서비스에서 추론 속도를 획기적으로 개선하면서도 품질을 유지하는 데 기여할 수 있습니다.
액션: 실험
액션 근거: 이산 확산 모델의 고질적인 샘플링 속도 문제를 해결하고 교사 모델보다 높은 성능을 보였다는 점에서 기술적 검증 가치가 높습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

26) CurveStream: Boosting Streaming Video Understanding in MLLMs via Curvature-Aware Hierarchical Visual Memory Management

arXiv: https://arxiv.org/abs/2603.19571
HF: https://huggingface.co/papers/2603.19571
카테고리: -
테마: General
우선순위 점수: 0.067
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: CurveStream은 스트리밍 비디오 이해 시 발생하는 토큰 폭발과 메모리 부족 문제를 해결하기 위해 제안된 학습 불필요(training-free) 프레임워크입니다. 연속적인 특징 궤적에서 곡률이 높은 지점이 핵심적인 의미 변화와 일치한다는 점에 착안하여, 곡률 점수를 기반으로 프레임을 계층적 메모리에 동적으로 관리합니다. 이를 통해 제한된 토큰 예산 내에서도 스트리밍 벤치마크에서 기존 베이스라인 대비 10% 이상의 성능 향상을 달성했습니다.
우리 팀 영향: 추가 학습 없이도 긴 비디오 스트림을 효율적으로 처리할 수 있어, 실시간 영상 분석 서비스의 메모리 관리 효율을 크게 개선할 수 있습니다.
액션: 실험
액션 근거: 기존 모델의 구조 변경 없이 곡률 기반의 기하학적 지표만으로 스트리밍 성능을 높였다는 점에서 재현 및 성능 검증 가치가 높습니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

27) Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders

arXiv: https://arxiv.org/abs/2603.19209
HF: https://huggingface.co/papers/2603.19209
카테고리: -
테마: General
우선순위 점수: 0.067
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 본 논문은 VLM의 시각 인코더로서 기존 Transformer 대신 상태 공간 모델(SSM)의 성능을 체계적으로 평가합니다. 실험 결과 SSM 백본은 VQA 및 그라운딩 작업에서 우수한 성능을 보였으며, 특히 모델 크기가 작음에도 불구하고 경쟁력 있는 결과를 나타냈습니다. 또한 시각 백본의 안정성 문제를 해결하기 위한 전략을 제안하며 SSM이 유망한 대안임을 입증했습니다.
우리 팀 영향: 모델 경량화가 필요한 VLM 프로젝트에서 Transformer 대신 SSM 기반 시각 인코더를 도입하여 효율성을 높일 수 있습니다.
액션: 실험
액션 근거: SSM 백본이 더 작은 파라미터로도 높은 성능과 안정성을 보인다는 점에서 기존 ViT 기반 구조와의 성능 비교 실험이 가치가 있습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

28) DROID-SLAM in the Wild

arXiv: https://arxiv.org/abs/2603.19076
HF: https://huggingface.co/papers/2603.19076
카테고리: -
테마: General
우선순위 점수: 0.067
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 다중 뷰 시각적 특징의 불일치를 활용하여 픽셀별 불확실성을 추정하는 실시간 RGB SLAM 시스템을 제안합니다. 미분 가능한 불확실성 기반 번들 조정(Bundle Adjustment)을 통해 동적 객체나 복잡한 환경에서도 강건한 카메라 추적과 재구성을 수행합니다. 기존 정적 가정 기반 SLAM의 한계를 극복하여 실제 환경에서 약 10 FPS의 속도로 동작하며 높은 정확도를 보여줍니다.
우리 팀 영향: 동적 객체가 포함된 실제 환경에서 안정적인 카메라 트래킹과 맵 생성이 필요한 자율 주행 및 로봇 프로젝트에 활용될 수 있습니다.
액션: 실험
액션 근거: 기존 DROID-SLAM의 성능을 동적 환경으로 확장하였으며 오픈 소스 코드가 제공되어 기술 검증이 용이하기 때문입니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

29) ReLi3D: Relightable Multi-view 3D Reconstruction with Disentangled Illumination

arXiv: https://arxiv.org/abs/2603.19753
HF: https://huggingface.co/papers/2603.19753
카테고리: -
테마: General
우선순위 점수: 0.033
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: ReLi3D는 희소한 다중 뷰 이미지에서 3D 기하학, 물리 기반 재질, 환경 조명을 1초 미만에 동시에 복원하는 통합 엔드투엔드 파이프라인입니다. 트랜스포머 교차 컨디셔닝 아키텍처와 이중 경로 예측 전략을 통해 물체의 구조와 조명을 효과적으로 분리합니다. 미분 가능한 몬테카를로 렌더러와 혼합 도메인 학습 프로토콜을 사용하여 재조명 가능한 3D 자산 생성의 효율성을 높였습니다.
우리 팀 영향: 실시간에 가까운 속도로 재질과 조명이 분리된 3D 자산을 생성할 수 있어 고품질 디지털 트윈 및 콘텐츠 제작 공정의 효율을 크게 개선할 수 있습니다.
액션: 실험
액션 근거: 1초 미만의 빠른 추론 속도와 물리 기반 재질 분리 성능이 실제 서비스 적용 가능성이 높다고 판단되어 성능 검증이 필요합니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

30) TAPESTRY: From Geometry to Appearance via Consistent Turntable Videos

arXiv: https://arxiv.org/abs/2603.17735
HF: https://huggingface.co/papers/2603.17735
카테고리: -
테마: General
우선순위 점수: 0.033
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: TAPESTRY는 텍스처가 없는 3D 모델에서 기하학적 일관성을 유지하며 고품질 360도 턴테이블 비디오를 생성하는 프레임워크입니다. 3D 메쉬의 기하학적 특징을 비디오 확산 모델의 조건으로 사용하여 픽셀 단위의 정밀한 제어를 구현했습니다. 생성된 비디오는 UV 텍스처 매핑이나 3DGS와 같은 신경 렌더링의 학습 데이터로 활용되어 완성도 높은 3D 에셋 제작을 지원합니다.
우리 팀 영향: 비디오 확산 모델을 활용해 3D 모델의 텍스처 생성 및 가림 영역 복원 성능을 높임으로써 디지털 콘텐츠 제작 파이프라인의 효율성을 개선할 수 있습니다.
액션: 실험
액션 근거: 기존 비디오 확산 모델의 한계인 기하학적 불일치 문제를 해결하고 UV 텍스처 및 3DGS로의 확장성을 보여주어 실무 적용 가능성이 높습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

31) Probing Cultural Signals in Large Language Models through Author Profiling

arXiv: https://arxiv.org/abs/2603.16749
HF: https://huggingface.co/papers/2603.16749
카테고리: -
테마: Fine-Tuning
우선순위 점수: 0.033
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 본 논문은 LLM이 노래 가사를 통해 작사자의 성별과 인종을 추론하는 ‘저자 프로파일링’ 능력을 분석하여 모델 내재적 문화 편향을 조사했습니다. 실험 결과 대부분의 모델은 북미 인종으로 편향된 경향을 보였으나, DeepSeek-1.5B는 아시아 인종과 더 강하게 정렬되는 특성을 보였습니다. 연구진은 공정성 측정을 위해 MAD와 RD라는 새로운 지표를 제안하고 모델별 편향 정도를 정량화했습니다.
우리 팀 영향: 다양한 문화권의 데이터를 처리하는 서비스 개발 시 모델별로 내재된 인종적/문화적 편향성을 사전에 파악하고 보정하는 지표로 활용할 수 있습니다.
액션: 실험
액션 근거: 제안된 MAD 및 RD 지표를 활용하여 현재 사용 중인 모델들의 문화적 편향성을 정량적으로 측정하고 서비스 적합성을 판단할 필요가 있습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

32) Human-AI Synergy in Agentic Code Review

arXiv: https://arxiv.org/abs/2603.15911
HF: https://huggingface.co/papers/2603.15911
카테고리: -
테마: General
우선순위 점수: 0.033
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 300개 오픈소스 프로젝트의 27만 건 이상 리뷰 데이터를 분석하여 인간과 AI 에이전트의 코드 리뷰 성과를 비교했습니다. AI는 결함 스크리닝에는 유용하나, 인간 리뷰어에 비해 지식 전달 및 테스트 관련 피드백이 부족하고 제안 채택률도 유의미하게 낮았습니다. 특히 AI의 제안이 채택될 경우 인간의 제안보다 코드 복잡도와 크기가 더 크게 증가하는 경향이 확인되었습니다.
우리 팀 영향: AI 에이전트를 코드 리뷰 프로세스에 도입할 때 단순 자동화보다는 인간의 검토와 맥락 보완이 필수적임을 시사합니다.
액션: 실험
액션 근거: AI 제안의 낮은 채택률과 코드 복잡도 증가 문제를 해결하기 위해 인간과 AI의 협업 워크플로우 최적화 실험이 필요합니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

보류/무시

사유와 재검토일을 기록하세요.

논문 리뷰 2026-03-24 논문 리뷰 2026-03-10

​논문 리뷰 2026-03-23

​Daily Paper Review - 2026-03-23

​수집 요약

​Top Papers

​1) HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning

​2) Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models

​3) A Subgoal-driven Framework for Improving Long-Horizon LLM Agents

​4) HiMu: Hierarchical Multimodal Frame Selection for Long Video Question Answering

​5) TerraScope: Pixel-Grounded Visual Reasoning for Earth Observation

​6) Cooperation and Exploitation in LLM Policy Synthesis for Sequential Social Dilemmas

​7) The Y-Combinator for LLMs: Solving Long-Context Rot with λ-Calculus

​8) Hyperagents

​9) Reasoning as Compression: Unifying Budget Forcing via the Conditional Information Bottleneck

​10) Language on Demand, Knowledge at Core: Composing LLMs with Encoder-Decoder Translation Models for Extensible Multilinguality

​11) FlowScene: Style-Consistent Indoor Scene Generation with Multimodal Graph Rectified Flow

​12) s2n-bignum-bench: A practical benchmark for evaluating low-level code reasoning of LLMs

​13) Deep Tabular Research via Continual Experience-Driven Execution

​14) WorldAgents: Can Foundation Image Models be Agents for 3D World Models?

​15) LoopRPT: Reinforcement Pre-Training for Looped Language Models

​16) ProactiveBench: Benchmarking Proactiveness in Multimodal Large Language Models

​17) AgentDS Technical Report: Benchmarking the Future of Human-AI Collaboration in Domain-Specific Data Science

​18) LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation

​19) Teaching an Agent to Sketch One Part at a Time

​20) ReLMXEL: Adaptive RL-Based Memory Controller with Explainable Energy and Latency Optimization

​21) Versatile Editing of Video Content, Actions, and Dynamics without Training

​22) How Well Does Generative Recommendation Generalize?

​23) BEAVER: A Training-Free Hierarchical Prompt Compression Method via Structure-Aware Page Selection

​24) EgoForge: Goal-Directed Egocentric World Simulator

​25) Beyond Single Tokens: Distilling Discrete Diffusion Models via Discrete MMD

​26) CurveStream: Boosting Streaming Video Understanding in MLLMs via Curvature-Aware Hierarchical Visual Memory Management

​27) Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders

​28) DROID-SLAM in the Wild

​29) ReLi3D: Relightable Multi-view 3D Reconstruction with Disentangled Illumination

​30) TAPESTRY: From Geometry to Appearance via Consistent Turntable Videos

​31) Probing Cultural Signals in Large Language Models through Author Profiling

​32) Human-AI Synergy in Agentic Code Review

​보류/무시

논문 리뷰 2026-03-23

Daily Paper Review - 2026-03-23

수집 요약

Top Papers

1) HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning

2) Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models

3) A Subgoal-driven Framework for Improving Long-Horizon LLM Agents

4) HiMu: Hierarchical Multimodal Frame Selection for Long Video Question Answering

5) TerraScope: Pixel-Grounded Visual Reasoning for Earth Observation

6) Cooperation and Exploitation in LLM Policy Synthesis for Sequential Social Dilemmas

7) The Y-Combinator for LLMs: Solving Long-Context Rot with λ-Calculus

8) Hyperagents

9) Reasoning as Compression: Unifying Budget Forcing via the Conditional Information Bottleneck

10) Language on Demand, Knowledge at Core: Composing LLMs with Encoder-Decoder Translation Models for Extensible Multilinguality

11) FlowScene: Style-Consistent Indoor Scene Generation with Multimodal Graph Rectified Flow

12) s2n-bignum-bench: A practical benchmark for evaluating low-level code reasoning of LLMs

13) Deep Tabular Research via Continual Experience-Driven Execution

14) WorldAgents: Can Foundation Image Models be Agents for 3D World Models?

15) LoopRPT: Reinforcement Pre-Training for Looped Language Models

16) ProactiveBench: Benchmarking Proactiveness in Multimodal Large Language Models

17) AgentDS Technical Report: Benchmarking the Future of Human-AI Collaboration in Domain-Specific Data Science

18) LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation

19) Teaching an Agent to Sketch One Part at a Time

20) ReLMXEL: Adaptive RL-Based Memory Controller with Explainable Energy and Latency Optimization

21) Versatile Editing of Video Content, Actions, and Dynamics without Training

22) How Well Does Generative Recommendation Generalize?

23) BEAVER: A Training-Free Hierarchical Prompt Compression Method via Structure-Aware Page Selection

24) EgoForge: Goal-Directed Egocentric World Simulator

25) Beyond Single Tokens: Distilling Discrete Diffusion Models via Discrete MMD

26) CurveStream: Boosting Streaming Video Understanding in MLLMs via Curvature-Aware Hierarchical Visual Memory Management

27) Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders

28) DROID-SLAM in the Wild

29) ReLi3D: Relightable Multi-view 3D Reconstruction with Disentangled Illumination

30) TAPESTRY: From Geometry to Appearance via Consistent Turntable Videos

31) Probing Cultural Signals in Large Language Models through Author Profiling

32) Human-AI Synergy in Agentic Code Review

보류/무시