논문 리뷰 2026-03-10

기준일: 2026-03-10
수집 건수(중복 제거): 42
발행 Top N: 42
원본 리포트: trend/reports/daily/2026-03-10.md
마지막 갱신: 2026-03-11 00:03:25

Daily Paper Review - 2026-03-10

수집 요약

총 수집(중복 제거 후): 42
발행 Top N: 42
LLM 요약 성공: 42
LLM 요약 폴백: 0

Top Papers

1) Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence

arXiv: https://arxiv.org/abs/2603.07660
HF: https://huggingface.co/papers/2603.07660
카테고리: -
테마: Reasoning, Fine-Tuning
우선순위 점수: 2.633
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: Holi-Spatial은 수작업 없이 원시 비디오 데이터에서 대규모 3D 공간 지능 데이터를 자동 생성하는 파이프라인입니다. 3D Gaussian Splatting(3DGS)을 활용하여 12,000개의 장면과 120만 개의 공간 QA 쌍을 포함하는 Holi-Spatial-4M 데이터셋을 구축했습니다. 이를 통해 시각-언어 모델(VLM)의 공간 추론 능력을 크게 향상시킬 수 있음을 입증했습니다.
우리 팀 영향: 대규모 3D 데이터 확보가 어려운 환경에서 자동화된 데이터 생성 파이프라인을 통해 공간 추론 모델 학습 효율을 높일 수 있습니다.
액션: 실험
액션 근거: 자동화된 3D 데이터 생성 방식이 기존 수동 주석 방식의 확장성 문제를 해결할 수 있는지 검증이 필요합니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

2) Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

arXiv: https://arxiv.org/abs/2603.05890
HF: https://huggingface.co/papers/2603.05890
카테고리: -
테마: Benchmark
우선순위 점수: 2.2
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: LLM이 생성하는 장문 서사에서 발생하는 일관성 오류를 평가하기 위해 ConStory-Bench 벤치마크를 제안합니다. 5개 카테고리와 19개 세부 유형으로 구성된 오류 체계를 정의하고, 자동 탐지 파이프라인인 ConStory-Checker를 개발했습니다. 실험 결과 일관성 오류는 주로 서사의 중간 부분에서 사실 및 시간적 차원을 중심으로 빈번하게 발생함을 확인했습니다.
우리 팀 영향: 장문 텍스트 생성 시 발생하는 논리적 모순을 정밀하게 측정하고 개선하기 위한 평가 지표로 활용할 수 있습니다.
액션: 실험
액션 근거: 자체 서비스의 장문 생성 품질을 고도화하기 위해 제안된 오류 탐지 파이프라인과 벤치마크의 적용 가능성을 검토할 가치가 있습니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

3) Agentic Critical Training

arXiv: https://arxiv.org/abs/2603.08706
HF: https://huggingface.co/papers/2603.08706
카테고리: -
테마: Agent, LLM, Reasoning
우선순위 점수: 1.967
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 기존 모방 학습 기반의 에이전트 훈련은 행동의 이유를 이해하지 못한다는 한계가 있어, 대안 중 더 나은 행동을 식별하도록 훈련하는 Agentic Critical Training(ACT)을 제안합니다. ACT는 모델이 정답 행동과 대안을 대조하여 스스로 판단하도록 보상함으로써 진정한 자기 성찰 능력을 개발하도록 유도합니다. 실험 결과, 세 가지 벤치마크에서 기존 모방 학습 및 강화 학습 대비 성능이 향상되었으며 일반 추론 능력과 일반화 성능도 개선되었습니다.
우리 팀 영향: 에이전트의 의사결정 품질을 높이기 위해 단순 모방이 아닌 비판적 사고를 강화하는 학습 프레임워크를 우리 팀의 에이전트 고도화에 적용할 수 있습니다.
액션: 실험
액션 근거: 기존 모방 학습의 한계를 극복하고 에이전트의 일반화 성능과 추론 능력을 동시에 향상시킨다는 수치적 근거가 명확하기 때문입니다.
요약 신뢰도(모델): 0.92
리뷰 메모:

4) Making LLMs Optimize Multi-Scenario CUDA Kernels Like Experts

arXiv: https://arxiv.org/abs/2603.07169
HF: https://huggingface.co/papers/2603.07169
카테고리: -
테마: Agent, LLM, Benchmark
우선순위 점수: 1.867
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 본 논문은 다양한 시나리오의 CUDA 커널 최적화를 위해 MSKernelBench 벤치마크와 멀티 에이전트 시스템인 CUDAMaster를 제안합니다. CUDAMaster는 하드웨어 인지형 프로파일링 정보를 활용하여 컴파일 및 실행 툴체인을 자동으로 구축합니다. 실험 결과, 기존 Astra 대비 약 35%의 성능 향상을 보였으며 일부 사례에서는 cuBLAS와 대등하거나 이를 능가하는 성능을 기록했습니다.
우리 팀 영향: LLM 기반의 자동화된 커널 최적화 기술을 통해 과학 계산 및 딥러닝 연산자의 GPU 성능 최적화 공수를 크게 단축할 수 있습니다.
액션: 실험
액션 근거: 다양한 정밀도와 시나리오를 지원하며 기존 라이브러리 수준의 성능 도달 가능성을 보여주었으므로 내부 연산자 최적화에 적용 가능성을 검증할 가치가 있습니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

5) Agentic Planning with Reasoning for Image Styling via Offline RL

arXiv: https://arxiv.org/abs/2603.07148
HF: https://huggingface.co/papers/2603.07148
카테고리: -
테마: Agent, Reasoning, Evaluation
우선순위 점수: 1.867
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 복잡한 이미지 스타일 변환을 위해 직접적인 프롬프트 대신 도구 기반의 에이전트 계획 및 추론 과정을 도입한 프레임워크를 제안합니다. 오프라인 강화학습을 통해 품질 점수가 매겨진 궤적을 학습하며, 이를 위해 3만 개의 합성 데이터셋을 구축하였습니다. Qwen3-VL 모델 실험 결과, 시각적 품질과 지시 이행 능력에서 기존 베이스라인 대비 향상된 성능을 보였습니다.
우리 팀 영향: 이미지 편집 도구 활용을 위한 에이전트의 추론 및 계획 능력을 강화하여 복잡한 스타일 변환 작업의 정확도를 높일 수 있습니다.
액션: 실험
액션 근거: 합성 데이터 생성 파이프라인과 오프라인 RL을 활용한 에이전트 학습 방식이 우리 팀의 멀티모달 에이전트 연구에 적용 가능성이 높습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

6) How Far Can Unsupervised RLVR Scale LLM Training?

arXiv: https://arxiv.org/abs/2603.08660
HF: https://huggingface.co/papers/2603.08660
카테고리: -
테마: LLM
우선순위 점수: 1.833
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 본 논문은 정답 라벨 없이 보상을 도출하는 비지도 강화학습(URLVR)의 확장 가능성과 한계를 분석하였습니다. 모든 내재적 보상 방식은 초기 모델 분포를 날카롭게 만드는 메커니즘을 공유하며, 초기 신뢰도와 정답이 일치하지 않을 경우 성능이 급격히 하락하는 패턴을 보입니다. 연구팀은 이러한 한계를 측정하기 위한 ‘모델 붕괴 단계’ 지표를 제안하고 외부 보상 방식의 가능성을 탐색했습니다.
우리 팀 영향: 데이터 라벨링 비용 없이 LLM을 고도화하려는 시도에서 내재적 보상 방식의 성능 임계점과 붕괴 시점을 예측하는 가이드라인으로 활용할 수 있습니다.
액션: 실험
액션 근거: 내재적 보상의 한계가 명확히 규명되었으므로, 제안된 모델 붕괴 지표를 활용해 현재 개발 중인 모델의 RL 학습 가능 범위를 테스트해 볼 가치가 있습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

7) SlowBA: An efficiency backdoor attack towards VLM-based GUI agents

arXiv: https://arxiv.org/abs/2603.08316
HF: https://huggingface.co/papers/2603.08316
카테고리: -
테마: Agent, Reasoning, Security
우선순위 점수: 1.833
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: VLM 기반 GUI 에이전트의 응답 지연 시간을 인위적으로 늘리는 새로운 백도어 공격인 SlowBA를 제안합니다. 특정 트리거가 발생하면 모델이 불필요하게 긴 추론 체인을 생성하도록 강화 학습 기반의 보상 주입 전략을 사용합니다. 실험 결과, 작업 정확도는 유지하면서도 응답 길이를 대폭 늘려 시스템 효율성을 저하시키는 것으로 나타났습니다.
우리 팀 영향: GUI 에이전트의 보안 검토 시 정확도뿐만 아니라 추론 효율성을 저해하는 백도어 공격에 대한 방어 체계 마련이 필요합니다.
액션: 실험
액션 근거: 강화 학습을 통한 추론 길이 조작 공격이 실제 에이전트 환경에서 어느 정도의 가용성 문제를 일으키는지 검증이 필요합니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

8) $OneMillion-Bench: How Far are Language Agents from Human Experts?

arXiv: https://arxiv.org/abs/2603.07980
HF: https://huggingface.co/papers/2603.07980
카테고리: -
테마: Agent, Reasoning, Benchmark
우선순위 점수: 1.833
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 법률, 금융, 의료 등 5개 전문 분야의 400개 과업을 통해 언어 모델 에이전트의 실무 능력을 평가하는 벤치마크입니다. 단순 정답 도출을 넘어 권위 있는 출처 검색, 갈등 정보 해결, 도메인 규칙 준수 등 복합적인 추론 과정을 루브릭 기반으로 측정합니다. 전문가 수준의 문제 구성을 통해 에이전트의 실질적인 업무 준비도와 신뢰성을 평가하는 통합 테스트베드를 제공합니다.
우리 팀 영향: 전문 도메인 지식이 필요한 에이전트 개발 시, 실제 비즈니스 환경과 유사한 복합 추론 성능을 객관적으로 검증하는 지표로 활용할 수 있습니다.
액션: 실험
액션 근거: 기존의 정형화된 벤치마크보다 실무에 가까운 고난도 과업으로 구성되어 있어, 개발 중인 에이전트의 전문성 한계를 파악하기에 적합합니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

9) Believe Your Model: Distribution-Guided Confidence Calibration

arXiv: https://arxiv.org/abs/2603.03872
HF: https://huggingface.co/papers/2603.03872
카테고리: -
테마: Reasoning
우선순위 점수: 1.8
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 대형 추론 모델의 테스트 시간 스케일링 시 신뢰도 점수의 분포 정보를 활용하여 정답을 선택하는 DistriVoting 기법을 제안합니다. GMM을 통해 신뢰도 분포를 긍정 및 부정 성분으로 분해하고 필터링하며, SelfStepConf를 통해 단계별 신뢰도로 분포 간 분리도를 높입니다. 16개 모델과 5개 벤치마크에서 기존 투표 방식보다 우수한 성능을 입증했습니다.
우리 팀 영향: 추론 모델의 다중 응답 생성 시 단순 다수결 투표보다 정교한 정답 선택 메커니즘을 적용하여 추론 성능을 개선할 수 있습니다.
액션: 실험
액션 근거: 기존의 단순 Confidence 기반 투표 방식의 한계를 분포 최적화로 해결하려는 접근이 실용적이며 성능 향상 폭이 검증되었습니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

10) LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

arXiv: https://arxiv.org/abs/2603.03269
HF: https://huggingface.co/papers/2603.03269
카테고리: -
테마: Reasoning
우선순위 점수: 1.767
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: LoGeR는 TTT 기반 파라메트릭 메모리와 슬라이딩 윈도우 어텐션을 결합한 하이브리드 메모리 구조를 통해 수천 프레임 이상의 긴 비디오 시퀀스에서도 일관된 3D 재구성을 수행합니다. 128프레임 학습만으로도 추론 시 수만 프레임까지 일반화가 가능하며, 전역 좌표계 고정 및 스케일 드리프트 방지에 최적화되어 있습니다. KITTI 벤치마크에서 기존 피드포워드 방식 대비 ATE를 74% 이상 감소시키며 긴 시퀀스에서의 기하학적 복원 성능을 입증했습니다.
우리 팀 영향: 긴 비디오 시퀀스에 대한 실시간성 3D 재구성 및 슬램(SLAM) 기술의 정확도를 획기적으로 개선할 수 있습니다.
액션: 실험
액션 근거: 기존 순환 신경망이나 어텐션 기반 모델의 메모리 한계를 극복하고 긴 시퀀스에서 높은 정확도를 보여주어 실제 서비스 적용 가능성이 높습니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

11) Concept-Guided Fine-Tuning: Steering ViTs away from Spurious Correlations to Improve Robustness

arXiv: https://arxiv.org/abs/2603.08309
HF: https://huggingface.co/papers/2603.08309
카테고리: -
테마: LLM, Reasoning, Fine-Tuning
우선순위 점수: 1.533
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: Vision Transformer가 배경과 같은 허위 상관관계에 의존하는 문제를 해결하기 위해 LLM과 VLM을 활용한 개념 가이드 미세조정 프레임워크를 제안합니다. LLM으로 클래스별 핵심 개념을 추출하고 VLM으로 이를 세그멘테이션하여 모델의 내부 연관성 맵이 실제 의미론적 부위와 일치하도록 학습시킵니다. 이 방식은 적은 데이터로도 다양한 분포 외 데이터셋에서 모델의 강건성과 해석 가능성을 향상시켰습니다.
우리 팀 영향: LLM과 VLM을 활용해 수동 레이블링 없이도 모델의 추론 편향을 교정하고 강건성을 높이는 자동화된 파이프라인을 참고할 수 있습니다.
액션: 실험
액션 근거: 추가적인 수동 주석 없이도 모델의 강건성을 개선할 수 있는 방법론이며, 기존 ViT 기반 모델에 범용적으로 적용 가능하기 때문입니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

12) CoCo: Code as CoT for Text-to-Image Preview and Rare Concept Generation

arXiv: https://arxiv.org/abs/2603.08652
HF: https://huggingface.co/papers/2603.08652
카테고리: -
테마: Reasoning
우선순위 점수: 1.433
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: CoCo는 텍스트-이미지 생성 시 자연어 대신 실행 가능한 코드를 중간 추론 과정(CoT)으로 사용하는 프레임워크입니다. 생성된 코드를 통해 레이아웃이 포함된 초안 이미지를 먼저 렌더링한 후, 미세 조정을 거쳐 최종 고해상도 이미지를 완성합니다. 이를 위해 구조화된 초안과 최종 이미지 쌍으로 구성된 CoCo-10K 데이터셋을 구축하여 정밀한 제어를 가능하게 했습니다.
우리 팀 영향: 코드 기반의 구조적 레이아웃 생성을 통해 복잡한 공간 배치와 텍스트가 포함된 이미지 생성의 정확도를 크게 향상시킬 수 있습니다.
액션: 실험
액션 근거: 기존 자연어 기반 CoT보다 정밀한 레이아웃 제어가 가능하며 벤치마크 성능 향상 폭이 뚜렷하여 기술적 검증 가치가 높습니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

13) AutoResearch-RL: Perpetual Self-Evaluating Reinforcement Learning Agents for Autonomous Neural Architecture Discovery

arXiv: https://arxiv.org/abs/2603.07300
HF: https://huggingface.co/papers/2603.07300
카테고리: -
테마: Agent, Benchmark, Evaluation
우선순위 점수: 1.333
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: AutoResearch-RL은 인간의 개입 없이 강화학습 에이전트가 신경망 구조와 하이퍼파라미터를 지속적으로 탐색하고 최적화하는 프레임워크입니다. 에이전트는 PPO 알고리즘을 통해 코드 수정안을 제안하고 실행 결과인 검증 성능(val-bpb)을 보상으로 받아 정책을 업데이트합니다. 실험 결과, 단일 GPU 환경에서 약 300회의 반복만으로 수동 튜닝된 베이스라인과 대등하거나 이를 능가하는 설정을 발견했습니다.
우리 팀 영향: 자동화된 아키텍처 탐색 및 하이퍼파라미터 최적화 프로세스를 통해 연구 인력의 반복적인 실험 부담을 크게 줄일 수 있습니다.
액션: 실험
액션 근거: 제한된 자원 내에서 수동 튜닝 성능을 능가하는 자동화된 연구 에이전트의 실효성을 검증할 가치가 있습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

14) Building AI Coding Agents for the Terminal: Scaffolding, Harness, Context Engineering, and Lessons Learned

arXiv: https://arxiv.org/abs/2603.05344
HF: https://huggingface.co/papers/2603.05344
카테고리: -
테마: Agent, Reasoning, Safety
우선순위 점수: 1.3
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: OPENDEV는 터미널 환경에서 소스 제어 및 빌드 관리를 직접 수행하는 오픈소스 CLI 코딩 에이전트입니다. 기획과 실행을 분리한 이중 에이전트 구조와 적응형 컨텍스트 압축 기술을 통해 긴 작업 과정에서도 효율적인 추론을 유지합니다. 프로젝트별 지식을 축적하는 자동 메모리 시스템과 이벤트 기반 리마인더를 도입하여 자율적인 소프트웨어 엔지니어링 성능을 강화했습니다.
우리 팀 영향: 터미널 기반의 경량화된 에이전트 구조와 컨텍스트 관리 기법을 참고하여 사내 개발 워크플로우 자동화 도구의 효율성을 개선할 수 있습니다.
액션: 실험
액션 근거: 컨텍스트 압축 및 지식 축적 메모리 시스템이 실제 개발 환경에서 어느 정도의 정확도와 효율성을 제공하는지 검증이 필요합니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

15) NLE: Non-autoregressive LLM-based ASR by Transcript Editing

arXiv: https://arxiv.org/abs/2603.08397
HF: https://huggingface.co/papers/2603.08397
카테고리: -
테마: LLM
우선순위 점수: 1.0
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: NLE는 기존 자동회귀 방식의 LLM 기반 ASR이 가진 높은 지연 시간을 해결하기 위해 비자동회귀 방식의 전사 편집 메커니즘을 제안합니다. 사전 학습된 음성 인코더의 초기 가설을 양방향 LLM 에디터가 병렬로 수정하며, 인터리브 패딩 전략을 통해 모델이 교정 작업에 집중하도록 설계되었습니다. 실험 결과 NLE++는 Open ASR 리더보드에서 5.67%의 WER을 기록하며 기존 AR 모델 대비 단일 발화 기준 27배의 속도 향상을 달성했습니다.
우리 팀 영향: 실시간 음성 인식 서비스에서 LLM의 성능을 유지하면서도 추론 속도를 획기적으로 개선할 수 있는 기술적 기반을 제공합니다.
액션: 실험
액션 근거: 기존 LLM 기반 ASR의 고질적인 문제인 추론 속도를 27배 개선하면서도 높은 정확도를 유지했다는 점에서 기술적 검증 가치가 높습니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

16) CARE-Edit: Condition-Aware Routing of Experts for Contextual Image Editing

arXiv: https://arxiv.org/abs/2603.08589
HF: https://huggingface.co/papers/2603.08589
카테고리: -
테마: General
우선순위 점수: 0.967
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: CARE-Edit은 단일 백본 모델에서 발생하는 작업 간 간섭과 다중 조건 충돌 문제를 해결하기 위해 조건 인식 전문가 라우팅(CARE) 방식을 제안합니다. 잠재 주의력 기반 라우터가 텍스트, 마스크, 참조, 베이스 등 4가지 전문 모듈에 토큰을 동적으로 할당하여 정밀한 편집을 수행합니다. 이를 통해 마스크 경계의 색 번짐이나 스타일 드리프트 같은 부작용을 억제하고 다중 조건 입력 상황에서 일관된 결과를 생성합니다.
우리 팀 영향: 다양한 제어 조건을 동적으로 처리하는 전문가 혼합(MoE) 구조를 통해 복합적인 이미지 편집 서비스의 품질을 개선할 수 있습니다.
액션: 실험
액션 근거: 기존 ControlNet 방식의 한계인 다중 조건 충돌 문제를 라우팅 알고리즘으로 해결한 접근 방식이 실무적 가치가 높기 때문입니다.
요약 신뢰도(모델): 0.92
리뷰 메모:

17) Unlocking Data Value in Finance: A Study on Distillation and Difficulty-Aware Training

arXiv: https://arxiv.org/abs/2603.07223
HF: https://huggingface.co/papers/2603.07223
카테고리: -
테마: Reasoning
우선순위 점수: 0.933
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 금융 도메인 특화 LLM 성능 향상을 위해 고품질 Chain-of-Thought 데이터셋인 ODA-Fin-SFT-318k와 검증 가능한 난이도별 데이터셋 ODA-Fin-RL-12k를 구축했습니다. SFT 단계에서의 고품질 증류 데이터와 RL 단계에서의 난이도 및 검증 가능성 기반 샘플링이 모델의 일반화 성능을 결정함을 입증했습니다. 제안된 ODA-Fin-RL-8B 모델은 9개의 금융 벤치마크에서 기존 오픈소스 금융 특화 모델들보다 우수한 성능을 기록했습니다.
우리 팀 영향: 금융 도메인에 특화된 고품질 CoT 데이터셋과 RL 학습 전략을 활용하여 정밀한 수치 추론이 필요한 내부 금융 서비스 모델 고도화에 기여할 수 있습니다.
액션: 실험
액션 근거: 공개된 고품질 금융 특화 데이터셋과 검증 기반 RL 방법론이 실제 도메인 성능 향상에 유효한지 내부 벤치마크를 통해 검증할 가치가 높습니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

18) Scaling Agentic Capabilities, Not Context: Efficient Reinforcement Finetuning for Large Toolspaces

arXiv: https://arxiv.org/abs/2603.06713
HF: https://huggingface.co/papers/2603.06713
카테고리: -
테마: Agent
우선순위 점수: 0.933
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: ATLAS는 소형 언어 모델(SLM)이 방대한 도구 환경에서 효율적으로 작동할 수 있도록 하는 강화 학습 파인튜닝 프레임워크입니다. 컨텍스트 제어와 실행 구조를 학습 가능한 의사결정으로 처리하여 컨텍스트 증가를 억제하고 긴 작업 경로를 안정화합니다. 루브릭 기반의 보상 설계를 통해 작은 판별 모델로도 효과적인 학습이 가능하도록 구현되었습니다.
우리 팀 영향: 제한된 리소스 환경에서 SLM의 에이전트 성능을 극대화하고 컨텍스트 비용을 절감하는 기술적 기반을 제공합니다.
액션: 실험
액션 근거: MCP 벤치마크에서 4B 모델로 고성능 에이전트 성능을 구현한 방법론은 비용 효율적인 에이전트 구축에 직접 활용 가능하기 때문입니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

19) PIRA-Bench: A Transition from Reactive GUI Agents to GUI-based Proactive Intent Recommendation Agents

arXiv: https://arxiv.org/abs/2603.08013
HF: https://huggingface.co/papers/2603.08013
카테고리: -
테마: Agent, Benchmark
우선순위 점수: 0.9
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 사용자의 명시적 지시 없이도 화면 입력을 통해 의도를 예측하고 제안하는 능동형 GUI 에이전트 벤치마크인 PIRA-Bench를 제안합니다. 노이즈가 섞인 긴 화면 궤적과 다중 작업 전환 상황을 포함하여 실제 환경과 유사한 복잡한 시나리오를 평가할 수 있도록 설계되었습니다. 또한 다중 작업 스레드를 관리하고 오해의 소지가 있는 입력을 처리하는 메모리 기반 프레임워크인 PIRF를 베이스라인으로 제시합니다.
우리 팀 영향: 수동적인 명령 수행을 넘어 사용자 의도를 선제적으로 파악하는 지능형 에이전트 기술의 성능 측정 및 개발 방향을 제시할 수 있습니다.
액션: 실험
액션 근거: 기존의 반응형 에이전트 한계를 극복하고 실질적인 개인 비서 서비스 구현을 위한 능동적 의도 파악 기술의 검증이 필요하기 때문입니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

20) From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning

arXiv: https://arxiv.org/abs/2603.03825
HF: https://huggingface.co/papers/2603.03825
카테고리: -
테마: Reasoning
우선순위 점수: 0.867
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 멀티모달 추론 모델의 콜드 스타트 단계에서 시각적 토큰에 대한 주의 집중도(VAS)가 성능과 높은 상관관계(r=0.9616)를 가짐을 발견했습니다. 기존 멀티모달 학습이 시각 정보에 충분히 집중하지 못하는 ‘게으른 주의 집중’ 현상을 해결하기 위해 AVAR 프레임워크를 제안합니다. AVAR는 시각 앵커링 데이터 합성 및 보상 설계를 통해 Qwen2.5-VL-7B 모델에서 평균 7.0%의 성능 향상을 달성했습니다.
우리 팀 영향: 멀티모달 모델 학습 시 텍스트 위주의 학습보다 시각적 토큰에 대한 주의력을 강제하는 데이터 구성과 목적 함수가 추론 성능 향상에 필수적임을 시사합니다.
액션: 실험
액션 근거: 추가 학습 없이 추론 시점의 어텐션 조정만으로도 성능 향상이 가능하다는 점과 제안된 AVAR 프레임워크의 범용적인 성능 향상 폭이 크기 때문입니다.
요약 신뢰도(모델): 0.92
리뷰 메모:

21) HiAR: Efficient Autoregressive Long Video Generation via Hierarchical Denoising

arXiv: https://arxiv.org/abs/2603.08703
HF: https://huggingface.co/papers/2603.08703
카테고리: -
테마: General
우선순위 점수: 0.767
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: HiAR은 기존 순차적 생성 방식 대신 모든 블록을 동일한 노이즈 레벨에서 계층적으로 디노이징하여 긴 비디오 생성 시 발생하는 품질 저하 문제를 해결합니다. 이 방식은 컨텍스트의 예측 오류 전파를 억제하면서도 시간적 연속성을 유지하며, 파이프라인 병렬 추론을 통해 생성 속도를 약 1.8배 향상시킵니다. 또한 Forward-KL 정규화 기법을 도입하여 증류 과정에서 발생할 수 있는 모션 다양성 감소 문제를 방지했습니다.
우리 팀 영향: 긴 비디오 생성 시 발생하는 품질 저하와 속도 문제를 동시에 개선할 수 있는 효율적인 계층적 병렬 추론 프레임워크를 제공합니다.
액션: 실험
액션 근거: VBench에서 우수한 성능을 입증하였고 기존 AR 방식의 고질적인 오류 누적 문제를 해결하는 구조적 이점이 있어 성능 검증 가치가 높습니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

22) NaviDriveVLM: Decoupling High-Level Reasoning and Motion Planning for Autonomous Driving

arXiv: https://arxiv.org/abs/2603.07901
HF: https://huggingface.co/papers/2603.07901
카테고리: -
테마: Reasoning, Benchmark
우선순위 점수: 0.733
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: NaviDriveVLM은 자율 주행에서 고수준 추론과 모션 플래닝을 분리하여 대규모 Navigator와 경량 Driver로 구성된 디커플링 프레임워크를 제안합니다. 이 구조는 대형 모델의 추론 능력을 유지하면서도 정밀한 제어를 위한 학습 비용을 절감하고 해석 가능한 중간 표현을 제공합니다. nuScenes 벤치마크 실험 결과, 기존 대형 VLM 베이스라인보다 우수한 엔드투엔드 모션 플래닝 성능을 입증했습니다.
우리 팀 영향: 추론과 실행의 분리 구조를 통해 연산 효율성과 제어 정밀도를 동시에 확보하는 설계 전략을 우리 모델 아키텍처에 참고할 수 있습니다.
액션: 실험
액션 근거: nuScenes 벤치마크에서 기존 대형 VLM 대비 우수한 성능을 보였으므로, 제안된 디커플링 구조의 실제 제어 성능을 검증할 가치가 있습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

23) OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

arXiv: https://arxiv.org/abs/2603.08655
HF: https://huggingface.co/papers/2603.08655
카테고리: -
테마: RAG, Reasoning, Benchmark
우선순위 점수: 0.667
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: OfficeQA Pro는 100년치 미국 재무부 회보를 포함한 대규모 이기종 문서 말뭉치를 기반으로 한 기업용 RAG 벤치마크입니다. 최신 LLM들도 파라미터 지식만으로는 5% 미만의 정확도를 보였으며, 문서 말뭉치를 직접 제공받은 에이전트들도 평균 34.1%의 낮은 성능을 기록했습니다. 연구 결과 구조화된 문서 표현을 사용할 경우 성능이 약 16.1% 향상되었으나 여전히 개선의 여지가 큼을 확인했습니다.
우리 팀 영향: 복잡한 비정형 텍스트와 대규모 수치 데이터가 포함된 표 데이터를 처리하는 RAG 시스템의 한계를 파악하고 성능 측정 지표로 활용할 수 있습니다.
액션: 실험
액션 근거: 기업 환경의 복잡한 문서 구조와 수치 추론 능력을 평가하기 위한 벤치마크로서 우리 팀의 RAG 파이프라인 성능 검증에 적합합니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

24) Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

arXiv: https://arxiv.org/abs/2603.07779
HF: https://huggingface.co/papers/2603.07779
카테고리: -
테마: LLM
우선순위 점수: 0.667
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 본 논문은 코드 생성 모델의 성능 향상을 위해 데이터의 난이도를 체계적으로 조절하는 MicroCoder 데이터셋 구축 프레임워크를 제안합니다. LLM 기반의 예측-교정-선택 과정을 통해 5가지 차원의 난이도 지표를 활용하여 단순한 문제는 제거하고 도전적인 경쟁 프로그래밍 문제 위주로 데이터를 구성했습니다. 실험 결과, LiveCodeBench에서 기존 데이터셋 대비 300회 학습 단계 내에서 3배 더 높은 성능 향상을 보였으며 특히 중상급 난이도 문제에서 큰 개선을 확인했습니다.
우리 팀 영향: 데이터의 양보다 질과 난이도 조절이 코드 생성 모델의 추론 능력 향상에 더 효율적임을 시사하며, 자체 데이터 파이프라인 고도화에 참고할 수 있습니다.
액션: 실험
액션 근거: 제안된 난이도 필터링 프레임워크가 적은 학습 단계로도 높은 성능 향상을 증명했으므로 내부 코드 모델 튜닝에 적용 가능성을 검토할 가치가 있습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

25) Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models

arXiv: https://arxiv.org/abs/2603.07777
HF: https://huggingface.co/papers/2603.07777
카테고리: -
테마: Evaluation
우선순위 점수: 0.667
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: MicroCoder-GRPO는 조건부 절단 마스킹과 다양성 기반 온도 선택을 통해 코드 생성 모델의 훈련 안정성과 출력 다양성을 개선한 강화학습 방법론입니다. 함께 공개된 MicroCoder-Dataset은 기존 데이터셋 대비 적은 학습 단계로도 높은 성능 향상을 보이며, Evaluator는 평가 정확도와 속도를 동시에 개선했습니다. 실험 결과 LiveCodeBench v6에서 기존 베이스라인 대비 최대 17.6%의 상대적 성능 향상을 기록했습니다.
우리 팀 영향: 코드 생성 모델의 긴 출력물 학습 시 발생하는 병목 현상을 해결하고 훈련 효율성을 높이는 구체적인 기법들을 우리 팀의 모델 최적화에 참고할 수 있습니다.
액션: 실험
액션 근거: GRPO 알고리즘의 개선과 새로운 데이터셋을 통해 코드 생성 성능을 유의미하게 향상시킨 구체적인 수치와 인사이트가 포함되어 있어 재현 실험 가치가 높습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

arXiv: https://arxiv.org/abs/2603.07475
HF: https://huggingface.co/papers/2603.07475
카테고리: -
테마: Reasoning
우선순위 점수: 0.667
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 본 논문은 Diffusion 언어 모델(dLLM)과 자기회귀(AR) 모델의 내부 표현 구조를 비교 분석하여 dLLM이 더 계층적이고 초기 레이어 중복성이 높음을 발견했습니다. AR 기반 초기화 모델은 Diffusion 학습 후에도 AR 특유의 표현 역학을 유지하는 초기화 편향을 보였습니다. 이러한 중복성을 활용해 별도의 구조 변경 없이 추론 시 레이어를 건너뛰는 기법을 제안하여 dLLM에서 성능 저하를 최소화하며 연산량을 줄였습니다.
우리 팀 영향: Diffusion 기반 언어 모델 도입 시 추론 효율성을 높이기 위한 레이어 스킵 전략을 즉시 적용해 볼 수 있습니다.
액션: 실험
액션 근거: dLLM의 레이어 중복성을 활용한 연산량 절감 효과가 검증되었으므로 실제 모델 최적화에 적용 가능한지 확인이 필요합니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

27) PresentBench: A Fine-Grained Rubric-Based Benchmark for Slide Generation

arXiv: https://arxiv.org/abs/2603.07244
HF: https://huggingface.co/papers/2603.07244
카테고리: -
테마: Benchmark, Evaluation
우선순위 점수: 0.633
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: PresentBench는 슬라이드 생성 모델의 성능을 정밀하게 평가하기 위해 제안된 루브릭 기반의 벤치마크입니다. 총 238개의 인스턴스를 포함하며, 각 인스턴스당 평균 54.1개의 체크리스트 항목을 통해 생성된 슬라이드의 품질을 이진 질문 형태로 세밀하게 측정합니다. 실험 결과 NotebookLM이 기존 모델들을 크게 앞서는 성능을 보였으며, 인간의 선호도와 높은 상관관계를 입증했습니다.
우리 팀 영향: 슬라이드 생성 모델 개발 시 정성적 평가에 의존하던 방식에서 벗어나, 세분화된 체크리스트를 통한 객관적인 성능 지표 확보가 가능해집니다.
액션: 실험
액션 근거: 기존의 모호한 평가 방식을 대체할 수 있는 구체적인 루브릭이 포함되어 있어, 내부 슬라이드 생성 모델의 성능 검증에 즉시 활용 가치가 높습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

28) TAPFormer: Robust Arbitrary Point Tracking via Transient Asynchronous Fusion of Frames and Events

arXiv: https://arxiv.org/abs/2603.04989
HF: https://huggingface.co/papers/2603.04989
카테고리: -
테마: Reasoning
우선순위 점수: 0.633
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: TAPFormer는 저주기 RGB 프레임과 고주기 이벤트 데이터를 비동기적으로 결합하여 정밀한 지점 추적을 수행하는 트랜스포머 기반 프레임워크입니다. Transient Asynchronous Fusion(TAF) 메커니즘을 통해 프레임 간의 시간적 공백을 메우고, Cross-modal Locally Weighted Fusion(CLWF)으로 모달리티 신뢰도에 따라 특징을 적응적으로 융합합니다. 실험 결과 기존 지점 추적 벤치마크에서 우수한 성능을 보였으며, 특히 저조도 및 블러 환경에서 강인함을 입증했습니다.
우리 팀 영향: 프레임과 이벤트 데이터를 활용한 비동기 융합 기술은 저조도나 고속 이동 상황에서의 객체 추적 성능을 획기적으로 개선할 수 있습니다.
액션: 실험
액션 근거: 기존 RGB 기반 추적기의 한계를 이벤트 카메라 데이터로 보완하여 평균 픽셀 오차를 28.2% 개선한 점이 실무 적용 가치가 높다고 판단됩니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

29) TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward

arXiv: https://arxiv.org/abs/2603.07700
HF: https://huggingface.co/papers/2603.07700
카테고리: -
테마: General
우선순위 점수: 0.367
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: TDM-R1은 미분 불가능한 보상을 활용하여 소수 단계 확산 모델을 강화하는 새로운 RL 패러다임입니다. 대리 보상 학습과 생성기 학습을 분리하고 결정론적 궤적을 따라 단계별 보상 신호를 획득하는 방식을 제안합니다. 실험 결과 4단계의 적은 연산만으로도 텍스트 렌더링 및 시각적 품질 측면에서 기존 모델보다 우수한 성능을 보였습니다.
우리 팀 영향: 미분 불가능한 실제 사용자 피드백이나 객체 개수 등의 지표를 소수 단계 생성 모델 최적화에 직접 활용할 수 있는 가능성을 제시합니다.
액션: 실험
액션 근거: 적은 연산량으로 고품질 이미지를 생성하면서도 다양한 비정형 보상 함수를 적용할 수 있다는 점이 실용적 가치가 높기 때문입니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

30) PureCC: Pure Learning for Text-to-Image Concept Customization

arXiv: https://arxiv.org/abs/2603.07561
HF: https://huggingface.co/papers/2603.07561
카테고리: -
테마: General
우선순위 점수: 0.267
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: PureCC는 텍스트-이미지 생성 모델의 개인화 과정에서 발생하는 원본 모델의 성능 저하 문제를 해결하기 위해 제안된 프레임워크입니다. 타겟 개념의 암시적 가이드와 원본 조건부 예측을 분리한 이중 분기 학습 파이프라인을 통해 원본 모델의 특성을 보존하면서 새로운 개념을 학습합니다. 또한 적응형 가이드 스케일을 도입하여 개념 학습의 정확도와 모델 보존 사이의 균형을 동적으로 조절합니다.
우리 팀 영향: 기존 모델의 범용적인 생성 능력을 유지하면서도 특정 캐릭터나 사물을 정교하게 학습시켜야 하는 개인화 서비스 개발에 참고할 수 있습니다.
액션: 실험
액션 근거: 원본 모델의 성능 저하를 최소화하면서 고품질의 커스터마이징이 가능하다는 점에서 기술적 효용성이 높을 것으로 판단됩니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

31) Scale Space Diffusion

arXiv: https://arxiv.org/abs/2603.08709
HF: https://huggingface.co/papers/2603.08709
카테고리: -
테마: General
우선순위 점수: 0.167
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 디퓨전 모델의 노이즈 제거 과정이 스케일 공간 이론의 저역 통과 필터링과 유사한 정보 계층을 가진다는 점에 착안하여 Scale Space Diffusion을 제안합니다. 고해상도 노이즈 상태를 저해상도로 처리하여 연산 효율을 높이는 Flexi-UNet 구조를 도입했습니다. CelebA와 ImageNet 데이터셋을 통해 해상도 및 네트워크 깊이에 따른 스케일링 성능을 입증했습니다.
우리 팀 영향: 디퓨전 모델 학습 및 추론 시 고해상도 연산 비용을 획기적으로 줄이면서도 정보 손실을 최소화하는 아키텍처 설계에 기여할 수 있습니다.
액션: 실험
액션 근거: 노이즈 수준에 따라 해상도를 가변적으로 조절하는 방식이 기존 고정 해상도 모델 대비 연산 효율성 측면에서 실질적인 이점이 있는지 검증이 필요합니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

32) FVG-PT: Adaptive Foreground View-Guided Prompt Tuning for Vision-Language Models

arXiv: https://arxiv.org/abs/2603.08708
HF: https://huggingface.co/papers/2603.08708
카테고리: -
테마: General
우선순위 점수: 0.167
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: CLIP 기반 프롬프트 튜닝 시 발생하는 비주얼 인코더의 전경(foreground) 어텐션 변화가 예측 실패의 원인임을 규명하고 이를 해결하기 위한 FVG-PT 프레임워크를 제안합니다. 학습 가능한 게이트와 증류 보상 모듈을 통해 전경에 대한 집중도를 높이고, 사전 보정 모듈로 과도한 전경 집중으로 인한 일반화 성능 저하를 방지합니다. 다양한 백본 모델과 데이터셋 실험을 통해 해당 모듈의 효과성과 호환성을 입증했습니다.
우리 팀 영향: 비주얼 프롬프트 튜닝 시 모델의 어텐션 편향 문제를 해결하여 다운스트림 태스크의 성능과 안정성을 동시에 개선할 수 있습니다.
액션: 실험
액션 근거: 기존 프롬프트 튜닝 방식에 플러그 앤 플레이 형태로 적용 가능하며 전경 어텐션 가이드를 통한 성능 향상 가능성이 높기 때문입니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

33) CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization

arXiv: https://arxiv.org/abs/2603.06449
HF: https://huggingface.co/papers/2603.06449
카테고리: -
테마: General
우선순위 점수: 0.133
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: CaTok은 1차원 인과적 이미지 토큰화를 위해 MeanFlow 디코더를 도입하여 자기회귀 모델의 시각 데이터 처리를 최적화합니다. REPA-A 정규화를 통해 인코더 특징을 비전 파운데이션 모델과 정렬함으로써 학습 안정성과 속도를 개선했습니다. ImageNet 재구성 실험에서 적은 학습 횟수로도 높은 FID와 PSNR 성능을 입증했습니다.
우리 팀 영향: 자기회귀 기반 비전 생성 모델의 토큰화 효율성과 품질을 동시에 개선할 수 있는 새로운 구조적 대안을 제시합니다.
액션: 실험
액션 근거: 기존 2D 패치 방식의 비인과적 한계를 극복하고 MeanFlow를 통한 효율적인 1D 토큰화 성능이 검증되었기 때문입니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

34) Generalizable Knowledge Distillation from Vision Foundation Models for Semantic Segmentation

arXiv: https://arxiv.org/abs/2603.02554
HF: https://huggingface.co/papers/2603.02554
카테고리: -
테마: General
우선순위 점수: 0.067
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 비전 파운데이션 모델(VFM)의 지식을 증류할 때 발생하는 일반화 성능 저하 문제를 해결하기 위해 GKD 프레임워크를 제안합니다. 표현 학습과 태스크 학습을 분리하고 쿼리 기반 소프트 증류 메커니즘을 도입하여 도메인 불변적인 특징을 효과적으로 추출합니다. 5개 벤치마크 실험 결과, 기존 방식 대비 파운데이션 모델 간 증류에서 1.9%, 로컬 모델로의 증류에서 10.6%의 성능 향상을 기록했습니다.
우리 팀 영향: 도메인 시프트 상황에서도 강건한 세그멘테이션 모델을 구축하기 위한 지식 증류 기법으로 활용 가능성이 높습니다.
액션: 실험
액션 근거: 파운데이션 모델의 강력한 일반화 성능을 유지하면서 경량화 모델을 학습시킬 수 있는 구체적인 다단계 프레임워크를 제시하고 있기 때문입니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

35) HydroShear: Hydroelastic Shear Simulation for Tactile Sim-to-Real Reinforcement Learning

arXiv: https://arxiv.org/abs/2603.00446
HF: https://huggingface.co/papers/2603.00446
카테고리: -
테마: General
우선순위 점수: 0.067
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: HydroShear는 접촉이 많은 작업에서 촉각 센서의 sim-to-real 간극을 줄이기 위해 비홀로노믹 수력탄성 전단 시뮬레이션 모델을 제안합니다. SDF를 활용해 고착-미끄러짐 전이와 경로 의존적 힘의 축적을 물리 기반으로 모델링하며, 다양한 기하학적 형상에 대해 효율적인 연산이 가능합니다. 실험 결과 GelSight Mini 센서를 이용한 4가지 정밀 조작 작업에서 93%의 높은 제로샷 전이 성공률을 기록했습니다.
우리 팀 영향: 정밀한 전단력 모델링을 통해 촉각 기반 로봇 조작 정책의 제로샷 sim-to-real 성공률을 획기적으로 높일 수 있습니다.
액션: 실험
액션 근거: 기존 이미지 기반 촉각 시뮬레이션보다 높은 성능을 입증했으므로, 정밀 조작이 필요한 내부 프로젝트에 적용 가능성을 검증할 가치가 있습니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

36) HY-WU (Part I): An Extensible Functional Neural Memory Framework and An Instantiation in Text-Guided Image Editing

arXiv: https://arxiv.org/abs/2603.07236
HF: https://huggingface.co/papers/2603.07236
카테고리: -
테마: General
우선순위 점수: 0.033
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: HY-WU는 단일 가중치 업데이트 방식의 한계를 극복하기 위해 인스턴스별로 가중치를 동적으로 생성하는 신경 메모리 프레임워크입니다. 도메인 변화나 사용자 선호도 진화에 대응하기 위해 공유 가중치를 덮어쓰는 대신, 조건에 따라 즉각적인 연산자를 합성하는 방식을 제안합니다. 이를 통해 지속적 학습과 개인화 과정에서 발생하는 성능 저하 및 간섭 문제를 완화하고자 합니다.
우리 팀 영향: 모델의 파라미터를 고정하지 않고 입력 조건에 따라 동적으로 가중치를 생성하는 방식은 실시간 개인화 서비스 설계에 참고할 가치가 있습니다.
액션: 실험
액션 근거: 지속적 학습 환경에서 가중치 충돌 문제를 해결하기 위한 동적 가중치 생성 메커니즘의 실제 효율성과 연산 비용을 검증할 필요가 있습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

37) MedSteer: Counterfactual Endoscopic Synthesis via Training-Free Activation Steering

arXiv: https://arxiv.org/abs/2603.07066
HF: https://huggingface.co/papers/2603.07066
카테고리: -
테마: General
우선순위 점수: 0.033
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: MedSteer는 내시경 이미지 합성을 위해 훈련이 필요 없는 활성화 스티어링 프레임워크를 제안합니다. 확산 트랜스포머의 교차 주의 계층에서 병리 벡터를 식별하여, 구조적 변화 없이 특정 임상 개념만 변경된 반사실적 이미지 쌍을 생성합니다. 실험 결과, 기존 반전 기반 방식보다 높은 개념 전환율과 구조 보존 성능을 보였으며 폴립 탐지 성능 향상에도 기여했습니다.
우리 팀 영향: 의료 데이터 증강 시 구조적 일관성을 유지하면서 특정 병변 유무만 조절할 수 있어 고품질 학습 데이터 생성에 활용 가능합니다.
액션: 실험
액션 근거: 추가 훈련 없이 활성화 벡터 조절만으로 정밀한 이미지 편집이 가능하다는 점에서 의료 도메인 적용 가능성이 높습니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

38) Spatiotemporal Heterogeneity of AI-Driven Traffic Flow Patterns and Land Use Interaction: A GeoAI-Based Analysis of Multimodal Urban Mobility

arXiv: https://arxiv.org/abs/2603.05581
HF: https://huggingface.co/papers/2603.05581
카테고리: -
테마: General
우선순위 점수: 0.033
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 본 연구는 토지 이용과 시공간적 교통 수요 간의 복잡한 상호작용을 분석하기 위해 MGWR, RF, ST-GCN을 결합한 GeoAI 하이브리드 프레임워크를 제안합니다. 자동차, 대중교통, 보행 등 세 가지 이동 수단에 대해 분석한 결과, 기존 벤치마크 대비 오차를 23-62% 줄이며 높은 예측 성능을 기록했습니다. SHAP 분석을 통해 토지 혼합도와 정류장 밀도가 각 교통 수단별 핵심 예측 인자임을 규명하였습니다.
우리 팀 영향: 도시 형태에 따른 교통 패턴의 시공간적 이질성을 정밀하게 모델링함으로써, 지역 맞춤형 모빌리티 서비스 설계 및 토지 이용 정책 수립에 기여할 수 있습니다.
액션: 실험
액션 근거: 제안된 하이브리드 모델이 높은 예측 정확도와 해석력을 동시에 확보하고 있어, 실제 도시 데이터에 적용하여 성능을 검증할 가치가 충분합니다.
요약 신뢰도(모델): 0.92
리뷰 메모:

39) Sparse-BitNet: 1.58-bit LLMs are Naturally Friendly to Semi-Structured Sparsity

arXiv: https://arxiv.org/abs/2603.05168
HF: https://huggingface.co/papers/2603.05168
카테고리: -
테마: General
우선순위 점수: 0.033
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 1.58비트 BitNet과 N:M 반정형 희소성(Sparsity) 기법의 상호작용을 연구하여 두 기술의 높은 호환성을 입증했습니다. Sparse-BitNet 프레임워크를 통해 저비트 양자화와 동적 희소화를 동시에 적용하며 안정적인 학습을 구현했습니다. 실험 결과, 기존 정밀도 모델 대비 성능 저하가 적고 전용 텐서 코어 활용 시 최대 1.30배의 속도 향상을 보였습니다.
우리 팀 영향: 초저비트 양자화 모델에 희소성 기법을 결합하여 추가적인 연산 효율성과 추론 속도 향상을 꾀할 수 있는 가능성을 제시합니다.
액션: 실험
액션 근거: BitNet 구조에서 희소성 적용 시의 성능 유지 능력이 우수하므로, 효율적인 LLM 서빙을 위한 최적화 기법으로 검증할 가치가 있습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

40) Autophoresis of a Janus particle near a planar wall: a lubrication limit

arXiv: https://arxiv.org/abs/2603.00791
HF: https://huggingface.co/papers/2603.00791
카테고리: -
테마: General
우선순위 점수: 0.033
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 평면 벽 근처에서 자가 확산 영동을 하는 야누스 입자의 거동을 윤활 한계 조건에서 점근적으로 분석했습니다. 입자와 벽 사이의 좁은 간극에서 발생하는 유동과 용질 농도 구배를 수치 해석 대신 수학적 모델로 해결했습니다. 입자의 캡 크기가 기울어진 입자의 회전 안정성과 축대칭 상태로의 복귀 여부를 결정한다는 점을 확인했습니다.
우리 팀 영향: 미세 유체 환경 내 능동적 입자의 벽면 근처 거동 제어 및 안정성 분석을 위한 이론적 기초로 활용할 수 있습니다.
액션: 보류
액션 근거: 일반적인 물리 현상에 대한 이론적 분석 논문으로, 현재 팀의 실무 적용이나 즉각적인 실험 구현과는 거리가 있습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

41) MWM: Mobile World Models for Action-Conditioned Consistent Prediction

arXiv: https://arxiv.org/abs/2603.07799
HF: https://huggingface.co/papers/2603.07799
카테고리: -
테마: Benchmark
우선순위 점수: 0.0
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: MWM은 로봇 내비게이션을 위한 모바일 월드 모델로, 다단계 롤아웃 시 발생하는 시각적 드리프트와 행동 조건부 일관성 부족 문제를 해결합니다. 2단계 훈련 프레임워크와 추론 일관성 상태 증류(ICSD) 기법을 통해 적은 단계의 확산 모델 추론으로도 높은 궤적 정확도와 계획 성공률을 달성했습니다. 벤치마크와 실제 환경 실험을 통해 시각적 충실도와 추론 효율성 측면에서 성능 향상을 입증했습니다.
우리 팀 영향: 효율적인 확산 모델 증류 기법과 행동 조건부 일관성 강화 방법론을 통해 온디바이스 로봇 제어 및 내비게이션 성능을 개선할 수 있습니다.
액션: 실험
액션 근거: 실제 환경에서의 내비게이션 성공률과 추론 효율성을 동시에 개선한 방법론이므로 기존 모델에 적용 가능성을 검토할 가치가 있습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

42) SeedPolicy: Horizon Scaling via Self-Evolving Diffusion Policy for Robot Manipulation

arXiv: https://arxiv.org/abs/2603.05117
HF: https://huggingface.co/papers/2603.05117
카테고리: -
테마: Benchmark
우선순위 점수: 0.0
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: SeedPolicy는 Diffusion Policy의 한계인 긴 관측 시계열 처리 문제를 해결하기 위해 Self-Evolving Gated Attention(SEGA) 모듈을 도입했습니다. SEGA는 가변적인 긴 관측 데이터를 고정된 크기의 잠재 상태로 압축하여 효율적인 재귀적 업데이트를 수행합니다. RoboTwin 2.0 벤치마크 실험 결과, 기존 모델 대비 적은 파라미터로도 복잡한 환경에서 높은 성능 향상을 입증했습니다.
우리 팀 영향: 긴 시계열 데이터를 효율적으로 처리하는 SEGA 모듈을 통해 로봇 조작 작업의 장기 계획 능력을 개선할 수 있습니다.
액션: 실험
액션 근거: 기존 Diffusion Policy의 성능 저하 문제를 해결하면서도 파라미터 효율성이 높아 실제 로봇 제어 시스템에 적용 가능성이 큽니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

보류/무시

사유와 재검토일을 기록하세요.

논문 리뷰 2026-03-23 논문 리뷰 2026-03-09

​논문 리뷰 2026-03-10

​Daily Paper Review - 2026-03-10

​수집 요약

​Top Papers

​1) Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence

​2) Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

​3) Agentic Critical Training

​4) Making LLMs Optimize Multi-Scenario CUDA Kernels Like Experts

​5) Agentic Planning with Reasoning for Image Styling via Offline RL

​6) How Far Can Unsupervised RLVR Scale LLM Training?

​7) SlowBA: An efficiency backdoor attack towards VLM-based GUI agents

​8) $OneMillion-Bench: How Far are Language Agents from Human Experts?

​9) Believe Your Model: Distribution-Guided Confidence Calibration

​10) LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

​11) Concept-Guided Fine-Tuning: Steering ViTs away from Spurious Correlations to Improve Robustness

​12) CoCo: Code as CoT for Text-to-Image Preview and Rare Concept Generation

​13) AutoResearch-RL: Perpetual Self-Evaluating Reinforcement Learning Agents for Autonomous Neural Architecture Discovery

​14) Building AI Coding Agents for the Terminal: Scaffolding, Harness, Context Engineering, and Lessons Learned

​15) NLE: Non-autoregressive LLM-based ASR by Transcript Editing

​16) CARE-Edit: Condition-Aware Routing of Experts for Contextual Image Editing

​17) Unlocking Data Value in Finance: A Study on Distillation and Difficulty-Aware Training

​18) Scaling Agentic Capabilities, Not Context: Efficient Reinforcement Finetuning for Large Toolspaces

​19) PIRA-Bench: A Transition from Reactive GUI Agents to GUI-based Proactive Intent Recommendation Agents

​20) From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning

​21) HiAR: Efficient Autoregressive Long Video Generation via Hierarchical Denoising

​22) NaviDriveVLM: Decoupling High-Level Reasoning and Motion Planning for Autonomous Driving

​23) OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

​24) Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

​25) Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models

​26) Skip to the Good Part: Representation Structure & Inference-Time Layer Skipping in Diffusion vs. Autoregressive LLMs

​27) PresentBench: A Fine-Grained Rubric-Based Benchmark for Slide Generation

​28) TAPFormer: Robust Arbitrary Point Tracking via Transient Asynchronous Fusion of Frames and Events

​29) TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward

​30) PureCC: Pure Learning for Text-to-Image Concept Customization

​31) Scale Space Diffusion

​32) FVG-PT: Adaptive Foreground View-Guided Prompt Tuning for Vision-Language Models

​33) CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization

​34) Generalizable Knowledge Distillation from Vision Foundation Models for Semantic Segmentation

​35) HydroShear: Hydroelastic Shear Simulation for Tactile Sim-to-Real Reinforcement Learning

​36) HY-WU (Part I): An Extensible Functional Neural Memory Framework and An Instantiation in Text-Guided Image Editing

​37) MedSteer: Counterfactual Endoscopic Synthesis via Training-Free Activation Steering

​38) Spatiotemporal Heterogeneity of AI-Driven Traffic Flow Patterns and Land Use Interaction: A GeoAI-Based Analysis of Multimodal Urban Mobility

​39) Sparse-BitNet: 1.58-bit LLMs are Naturally Friendly to Semi-Structured Sparsity

​40) Autophoresis of a Janus particle near a planar wall: a lubrication limit

​41) MWM: Mobile World Models for Action-Conditioned Consistent Prediction

​42) SeedPolicy: Horizon Scaling via Self-Evolving Diffusion Policy for Robot Manipulation

​보류/무시

논문 리뷰 2026-03-10

Daily Paper Review - 2026-03-10

수집 요약

Top Papers

1) Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence

2) Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

3) Agentic Critical Training

4) Making LLMs Optimize Multi-Scenario CUDA Kernels Like Experts

5) Agentic Planning with Reasoning for Image Styling via Offline RL

6) How Far Can Unsupervised RLVR Scale LLM Training?

7) SlowBA: An efficiency backdoor attack towards VLM-based GUI agents

8) $OneMillion-Bench: How Far are Language Agents from Human Experts?

9) Believe Your Model: Distribution-Guided Confidence Calibration

10) LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

11) Concept-Guided Fine-Tuning: Steering ViTs away from Spurious Correlations to Improve Robustness

12) CoCo: Code as CoT for Text-to-Image Preview and Rare Concept Generation

13) AutoResearch-RL: Perpetual Self-Evaluating Reinforcement Learning Agents for Autonomous Neural Architecture Discovery

14) Building AI Coding Agents for the Terminal: Scaffolding, Harness, Context Engineering, and Lessons Learned

15) NLE: Non-autoregressive LLM-based ASR by Transcript Editing

16) CARE-Edit: Condition-Aware Routing of Experts for Contextual Image Editing

17) Unlocking Data Value in Finance: A Study on Distillation and Difficulty-Aware Training

18) Scaling Agentic Capabilities, Not Context: Efficient Reinforcement Finetuning for Large Toolspaces

19) PIRA-Bench: A Transition from Reactive GUI Agents to GUI-based Proactive Intent Recommendation Agents

20) From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning

21) HiAR: Efficient Autoregressive Long Video Generation via Hierarchical Denoising

22) NaviDriveVLM: Decoupling High-Level Reasoning and Motion Planning for Autonomous Driving

23) OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

24) Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

25) Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models

26) Skip to the Good Part: Representation Structure & Inference-Time Layer Skipping in Diffusion vs. Autoregressive LLMs

27) PresentBench: A Fine-Grained Rubric-Based Benchmark for Slide Generation

28) TAPFormer: Robust Arbitrary Point Tracking via Transient Asynchronous Fusion of Frames and Events

29) TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward

30) PureCC: Pure Learning for Text-to-Image Concept Customization

31) Scale Space Diffusion

32) FVG-PT: Adaptive Foreground View-Guided Prompt Tuning for Vision-Language Models

33) CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization

34) Generalizable Knowledge Distillation from Vision Foundation Models for Semantic Segmentation

35) HydroShear: Hydroelastic Shear Simulation for Tactile Sim-to-Real Reinforcement Learning

36) HY-WU (Part I): An Extensible Functional Neural Memory Framework and An Instantiation in Text-Guided Image Editing

37) MedSteer: Counterfactual Endoscopic Synthesis via Training-Free Activation Steering

38) Spatiotemporal Heterogeneity of AI-Driven Traffic Flow Patterns and Land Use Interaction: A GeoAI-Based Analysis of Multimodal Urban Mobility

39) Sparse-BitNet: 1.58-bit LLMs are Naturally Friendly to Semi-Structured Sparsity

40) Autophoresis of a Janus particle near a planar wall: a lubrication limit

41) MWM: Mobile World Models for Action-Conditioned Consistent Prediction

42) SeedPolicy: Horizon Scaling via Self-Evolving Diffusion Policy for Robot Manipulation

보류/무시