논문 리뷰 2026-03-29
Daily Paper Review - 2026-03-29
수집 요약
Top Papers
1) Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale
2) PixelSmile: Toward Fine-Grained Facial Expression Editing
3) MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens
4) RealRestorer: Towards Generalizable Real-World Image Restoration with Large-Scale Image Editing Models
5) MACRO: Advancing Multi-Reference Image Generation with Structured Long-Context Data
6) FinMCP-Bench: Benchmarking LLM Agents for Real-World Financial Tool Use under the Model Context Protocol
7) MemMA: Coordinating the Memory Cycle through Multi-Agent Reasoning and In-Situ Self-Evolution
8) Calibri: Enhancing Diffusion Transformers via Parameter-Efficient Calibration
9) SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks
10) AVO: Agentic Variation Operators for Autonomous Evolutionary Search
11) Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes
12) Voxtral TTS
13) Can MLLMs Read Students’ Minds? Unpacking Multimodal Error Analysis in Handwritten Math
14) VFIG: Vectorizing Complex Figures in SVG with Vision-Language Models
15) Vega: Learning to Drive with Natural Language Instructions
16) Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models
17) Nudging Hidden States: Training-Free Model Steering for Chain-of-Thought Reasoning in Large Audio-Language Models
18) IQuest-Coder-V1 Technical Report
19) AVControl: Efficient Framework for Training Audio-Visual Controls
20) Less Gaussians, Texture More: 4K Feed-Forward Textured Splatting
21) MuRF: Unlocking the Multi-Scale Potential of Vision Foundation Models
22) Representation Alignment for Just Image Transformers is not Easier than You Think
23) S2D2: Fast Decoding for Diffusion LLMs via Training-Free Self-Speculation
24) BioVITA: Biological Dataset, Model, and Benchmark for Visual-Textual-Acoustic Alignment
25) Electrostatic Photoluminescence Tuning in All-Solid-State Perovskite Transistors
26) Pixel-level Scene Understanding in One Token: Visual States Need What-is-Where Composition
27) PMT: Plain Mask Transformer for Image and Video Segmentation with Frozen Vision Encoders
28) WAFT-Stereo: Warping-Alone Field Transforms for Stereo Matching
29) Extending Precipitation Nowcasting Horizons via Spectral Fusion of Radar Observations and Foundation Model Priors
보류/무시

논문 리뷰 2026-03-29

기준일: 2026-03-29
수집 건수(중복 제거): 29
발행 Top N: 29
원본 리포트: trend/reports/daily/2026-03-29.md
마지막 갱신: 2026-03-30 00:02:08

Daily Paper Review - 2026-03-29

수집 요약

총 수집(중복 제거 후): 29
발행 Top N: 29
LLM 요약 성공: 29
LLM 요약 폴백: 0

Top Papers

1) Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale

arXiv: https://arxiv.org/abs/2603.25040
HF: https://huggingface.co/papers/2603.25040
카테고리: -
테마: Agent, Reasoning
우선순위 점수: 4.7
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: Intern-S1-Pro는 1조 개의 파라미터를 가진 최초의 과학 특화 멀티모달 파운데이션 모델입니다. 화학, 재료, 생명 과학 등 100개 이상의 전문 과학 분야에서 뛰어난 성능을 보이며 에이전트 기능과 추론 능력이 강화되었습니다. XTuner와 LMDeploy 인프라를 통해 대규모 강화학습 훈련 효율성과 추론 정밀도를 확보했습니다.
우리 팀 영향: 과학 전문 지식과 멀티모달 에이전트 기능이 결합된 1조 파라미터 모델의 벤치마크 데이터와 훈련 방법론을 통해 고도화된 연구 지원 도구 개발에 참고할 수 있습니다.
액션: 실험
액션 근거: 오픈소스 모델 중 최상위권의 일반 성능과 더불어 전문 과학 분야에서 상용 모델을 능가하는 성능을 보여 실제 연구 워크플로우 적용 가능성을 검증할 가치가 큽니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

2) PixelSmile: Toward Fine-Grained Facial Expression Editing

arXiv: https://arxiv.org/abs/2603.25728
HF: https://huggingface.co/papers/2603.25728
카테고리: -
테마: General
우선순위 점수: 3.667
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: PixelSmile은 미세한 표정 편집 시 발생하는 의미적 중첩 문제를 해결하기 위해 제안된 디퓨전 기반 프레임워크입니다. 연속적인 감정 주석이 포함된 FFE 데이터셋을 구축하고, 대조 학습과 강도 감독을 결합하여 표정의 독립적인 제어와 정체성 보존 성능을 높였습니다. 텍스트 잠재 공간 보간을 통해 선형적이고 안정적인 표정 제어 및 부드러운 표정 혼합 기능을 제공합니다.
우리 팀 영향: 정교한 얼굴 표정 제어 기술은 가상 아바타 생성 및 감성적인 영상 편집 서비스의 품질을 크게 향상시킬 수 있습니다.
액션: 실험
액션 근거: 연속적인 표정 제어와 정체성 보존 사이의 균형을 맞춘 방법론이 실제 서비스 적용 가능성이 높다고 판단됩니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

3) MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens

arXiv: https://arxiv.org/abs/2603.23516
HF: https://huggingface.co/papers/2603.23516
카테고리: -
테마: RAG, Agent, Reasoning
우선순위 점수: 2.867
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: MSA는 확장 가능한 희소 어텐션과 문서 단위 RoPE를 통해 1억 토큰까지 처리 가능한 엔드투엔드 메모리 모델 프레임워크입니다. 선형 복잡도를 유지하면서도 16K에서 100M 토큰 확장 시 성능 저하를 9% 미만으로 억제했으며, KV 캐시 압축과 메모리 병렬화를 통해 효율적인 추론을 지원합니다. 메모리 인터리빙 기법을 도입하여 흩어진 메모리 세그먼트 간의 복잡한 멀티홉 추론 성능을 크게 향상시켰습니다.
우리 팀 영향: 초장기 컨텍스트 처리가 필요한 디지털 트윈 및 에이전트 시스템 구축 시 RAG의 한계를 극복할 수 있는 효율적인 메모리 아키텍처로 활용 가능합니다.
액션: 실험
액션 근거: 1억 토큰 수준의 컨텍스트 확장이 가능하면서도 기존 RAG나 에이전트 방식보다 높은 정밀도를 보인다는 점에서 기술적 검증 가치가 높습니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

4) RealRestorer: Towards Generalizable Real-World Image Restoration with Large-Scale Image Editing Models

arXiv: https://arxiv.org/abs/2603.25502
HF: https://huggingface.co/papers/2603.25502
카테고리: -
테마: Evaluation
우선순위 점수: 2.133
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 실제 환경의 다양한 열화 현상을 해결하기 위해 9가지 열화 유형을 포함한 대규모 데이터셋을 구축하고 새로운 복원 모델인 RealRestorer를 제안합니다. 폐쇄형 모델인 Nano Banana Pro와의 성능 격차를 줄이기 위해 오픈소스 기반의 고성능 모델을 학습시켰으며, 실세계 이미지 464장을 포함한 RealIR-Bench를 통해 평가 체계를 마련했습니다. 실험 결과, 제안된 모델은 오픈소스 방법론 중 가장 우수한 복원 성능과 일관성 유지 능력을 입증했습니다.
우리 팀 영향: 대규모 데이터셋과 실세계 평가 벤치마크를 활용하여 자율주행 및 객체 탐지용 이미지 전처리 성능을 고도화할 수 있습니다.
액션: 실험
액션 근거: 오픈소스 모델 중 최상위 성능을 기록하였고 실세계 열화 대응 능력이 검증되었으므로 내부 데이터셋에 대한 성능 확인이 필요합니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

5) MACRO: Advancing Multi-Reference Image Generation with Structured Long-Context Data

arXiv: https://arxiv.org/abs/2603.25319
HF: https://huggingface.co/papers/2603.25319
카테고리: -
테마: Reasoning, Fine-Tuning, Benchmark
우선순위 점수: 2.1
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: MACRO는 다중 참조 이미지 생성 시 입력 개수가 늘어남에 따라 성능이 저하되는 데이터 병목 현상을 해결하기 위해 제안되었습니다. 최대 10개의 참조 이미지를 포함하는 400K 규모의 MacroData 데이터셋과 다중 참조 생성 능력을 평가하는 MacroBench를 구축했습니다. 실험 결과, 해당 데이터셋으로 파인튜닝 시 다중 참조 간의 의존성을 학습하여 생성 일관성이 크게 향상됨을 확인했습니다.
우리 팀 영향: 다중 객체 합성 및 일관된 캐릭터 생성 등 복잡한 조건부 이미지 생성 모델의 성능을 개선하는 데 활용될 수 있습니다.
액션: 실험
액션 근거: 기존 모델의 한계인 다중 참조 데이터 부족 문제를 해결하는 대규모 데이터셋과 벤치마크를 제공하므로 실제 성능 향상 여부 검증이 필요합니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

6) FinMCP-Bench: Benchmarking LLM Agents for Real-World Financial Tool Use under the Model Context Protocol

arXiv: https://arxiv.org/abs/2603.24943
HF: https://huggingface.co/papers/2603.24943
카테고리: -
테마: Agent, LLM, Reasoning
우선순위 점수: 2.0
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: FinMCP-Bench는 Model Context Protocol(MCP)을 활용하여 금융 도구 호출 능력을 평가하는 새로운 벤치마크입니다. 10개 시나리오와 65개의 실제 금융 MCP를 포함한 613개의 샘플로 구성되어 단일 및 다중 도구 사용 능력을 측정합니다. 주류 LLM들을 대상으로 도구 호출 정확도와 추론 능력을 체계적으로 평가할 수 있는 표준화된 테스트베드를 제공합니다.
우리 팀 영향: 금융 도메인 특화 에이전트 개발 시 MCP 기반의 도구 활용 성능을 객관적으로 검증하고 개선하는 지표로 활용할 수 있습니다.
액션: 실험
액션 근거: 실제 금융 도구 프로토콜을 반영한 벤치마크이므로 현재 개발 중인 금융 에이전트의 도구 활용 능력을 정밀하게 테스트하기에 적합합니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

7) MemMA: Coordinating the Memory Cycle through Multi-Agent Reasoning and In-Situ Self-Evolution

arXiv: https://arxiv.org/abs/2603.18718
HF: https://huggingface.co/papers/2603.18718
카테고리: -
테마: RAG, Agent, LLM
우선순위 점수: 2.0
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: MemMA는 메모리 구축, 검색, 활용 과정을 통합적으로 관리하기 위해 메타 사고(Meta-Thinker) 기반의 멀티 에이전트 프레임워크를 제안합니다. 전방 경로에서는 구조화된 가이드를 통해 전략적 메모리 관리를 수행하며, 후방 경로에서는 자가 진화형 메모리 구축을 통해 오류를 실시간으로 수정합니다. 실험 결과 다양한 LLM 백본과 저장소 환경에서 기존 베이스라인 대비 향상된 성능을 입증했습니다.
우리 팀 영향: 메모리 관리의 전 과정을 에이전트화하여 최적화함으로써 장기 문맥이 필요한 RAG 시스템의 정확도와 효율성을 개선할 수 있습니다.
액션: 실험
액션 근거: 기존의 파편화된 메모리 관리 방식 대신 전략적 추론과 자가 수정 메커니즘을 도입하여 성능 향상이 기대되므로 내부 벤치마크 적용을 제안합니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

8) Calibri: Enhancing Diffusion Transformers via Parameter-Efficient Calibration

arXiv: https://arxiv.org/abs/2603.24800
HF: https://huggingface.co/papers/2603.24800
카테고리: -
테마: General
우선순위 점수: 1.7
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: Diffusion Transformer(DiT) 블록에 학습 가능한 단일 스케일링 파라미터를 도입하여 생성 성능을 향상시키는 Calibri 기법을 제안합니다. 약 100개의 파라미터만 수정하는 블랙박스 보상 최적화 방식을 통해 효율적인 캘리브레이션을 수행합니다. 실험 결과 다양한 텍스트-이미지 모델에서 생성 품질을 높이면서도 추론 단계 수를 줄이는 효과를 입증했습니다.
우리 팀 영향: 최소한의 파라미터 업데이트만으로 기존 DiT 모델의 효율성과 품질을 동시에 개선할 수 있어 자원 제약 환경에서의 모델 최적화에 기여할 수 있습니다.
액션: 실험
액션 근거: 매우 적은 파라미터로 추론 속도 향상과 품질 개선이 가능하다는 점에서 실제 서비스 적용 가능성을 검증할 가치가 있습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

9) SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks

arXiv: https://arxiv.org/abs/2603.24755
HF: https://huggingface.co/papers/2603.24755
카테고리: -
테마: Agent, Benchmark
우선순위 점수: 1.367
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: SlopCodeBench는 코딩 에이전트가 반복적인 작업 수행 과정에서 코드 품질을 어떻게 저하시키는지 측정하는 벤치마크입니다. 실험 결과, 에이전트가 생성한 코드는 인간의 코드보다 중복도가 2.2배 높고 구조적 침식이 심하며, 반복될수록 품질이 지속적으로 악화되는 경향을 보였습니다. 11개 모델 중 어떤 에이전트도 전체 문제를 끝까지 해결하지 못했으며, 이는 현재 에이전트들이 장기적인 소프트웨어 설계 능력이 부족함을 시사합니다.
우리 팀 영향: 에이전트 기반 코딩 도구 개발 시 단순 통과율뿐만 아니라 코드의 유지보수성과 구조적 건전성을 평가할 수 있는 지표 도입이 필요합니다.
액션: 실험
액션 근거: 현재 개발 중인 코딩 에이전트의 장기적 성능 저하 문제를 진단하고 코드 품질 유지 능력을 정량적으로 측정하기 위해 해당 벤치마크 활용을 검토해야 합니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

10) AVO: Agentic Variation Operators for Autonomous Evolutionary Search

arXiv: https://arxiv.org/abs/2603.24517
HF: https://huggingface.co/papers/2603.24517
카테고리: -
테마: Agent, LLM
우선순위 점수: 1.367
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: AVO는 고정된 변이 연산자 대신 자율 코딩 에이전트를 활용하여 진화적 탐색을 수행하는 새로운 프레임워크입니다. 에이전트는 도메인 지식과 실행 피드백을 바탕으로 코드를 제안, 수정, 검증하며 NVIDIA Blackwell GPU 환경에서 최적의 커널을 탐색합니다. 실험 결과, cuDNN 대비 최대 3.5%, FlashAttention-4 대비 최대 10.5% 향상된 성능의 어텐션 커널을 발견했습니다.
우리 팀 영향: LLM 에이전트를 활용한 자동화된 커널 최적화 기법을 통해 고성능 GPU 연산 가속화 연구에 기여할 수 있습니다.
액션: 실험
액션 근거: 최신 GPU 아키텍처에서 기존 전문가 설계 커널보다 높은 성능을 보였다는 점에서 실제 최적화 작업에 적용 가능성을 확인할 가치가 있습니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

11) Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes

arXiv: https://arxiv.org/abs/2603.25562
HF: https://huggingface.co/papers/2603.25562
카테고리: -
테마: LLM, Reasoning
우선순위 점수: 1.333
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 본 논문은 온폴리시 증류(OPD)가 긴 호흡의 생성 작업에서 토큰 단위 신호의 불균형과 교사 모델의 신뢰도 저하로 인해 불안정해지는 문제를 분석합니다. 이론적으로 토큰 단위 OPD가 시퀀스 단위보다 편향되어 있으나 분산 제어에 유리함을 밝히고, 이를 개선하기 위한 truncated reverse-KL 기법을 제안합니다. 수학적 추론 및 에이전트 작업에서 제안된 방식이 기존 방식보다 안정적인 최적화와 높은 성능을 보임을 입증했습니다.
우리 팀 영향: LLM 포스트 트레이닝 시 온폴리시 증류의 안정성을 높여 추론 모델의 성능을 효율적으로 개선할 수 있는 방법론을 제공합니다.
액션: 실험
액션 근거: 기존 온폴리시 증류의 고질적인 불안정성 문제를 해결하는 구체적인 가이드라인과 개선된 목적 함수를 제시하고 있어 실제 학습에 적용 가치가 높습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

12) Voxtral TTS

arXiv: https://arxiv.org/abs/2603.25551
HF: https://huggingface.co/papers/2603.25551
카테고리: -
테마: General
우선순위 점수: 1.267
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: Voxtral TTS는 3초의 참조 오디오만으로 자연스러운 다국어 음성을 생성하는 모델로, 자동 회귀 방식과 Flow-matching 기법을 결합한 하이브리드 구조를 채택했습니다. 자체 개발한 Voxtral Codec을 통해 음성 토큰을 효율적으로 인코딩하며, ElevenLabs Flash v2.5 대비 68.4%의 선호도를 기록했습니다. 모델 가중치는 CC BY-NC 라이선스로 공개되었습니다.
우리 팀 영향: 적은 데이터로도 고품질의 다국어 음성 복제가 가능하여, 개인화된 TTS 서비스의 품질을 크게 향상시킬 수 있습니다.
액션: 실험
액션 근거: 상용 모델인 ElevenLabs 대비 높은 선호도를 보였으며 모델 가중치가 공개되어 있어 직접적인 성능 검증이 가능하기 때문입니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

13) Can MLLMs Read Students’ Minds? Unpacking Multimodal Error Analysis in Handwritten Math

arXiv: https://arxiv.org/abs/2603.24961
HF: https://huggingface.co/papers/2603.24961
카테고리: -
테마: Reasoning, Benchmark, Evaluation
우선순위 점수: 1.267
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 학생들의 손글씨 수학 풀이 과정에서 발생하는 오류를 진단하고 분류하기 위한 벤치마크인 ScratchMath를 제안합니다. 중국 초중등 학생의 데이터 1,720개를 활용하여 오류 원인 설명(ECE)과 분류(ECC) 작업을 정의하고 16개의 주요 MLLM을 평가했습니다. 실험 결과, 상용 모델이 오픈소스 모델보다 우수했으나 시각적 인식과 논리적 추론 측면에서 여전히 인간 전문가와 큰 성능 격차를 보였습니다.
우리 팀 영향: 수학 교육 도메인에서 MLLM의 오류 진단 능력을 정밀하게 측정할 수 있는 데이터셋과 평가 프레임워크를 확보할 수 있습니다.
액션: 실험
액션 근거: 현재 개발 중인 교육용 모델의 멀티모달 추론 및 오류 진단 성능을 객관적으로 검증하기 위한 벤치마크로 활용 가치가 높습니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

14) VFIG: Vectorizing Complex Figures in SVG with Vision-Language Models

arXiv: https://arxiv.org/abs/2603.24575
HF: https://huggingface.co/papers/2603.24575
카테고리: -
테마: Fine-Tuning, Evaluation
우선순위 점수: 1.0
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: VFIG는 래스터 이미지를 편집 가능한 고품질 SVG로 변환하기 위해 설계된 시각-언어 모델(VLM) 프레임워크입니다. 66,000개의 고품질 데이터셋인 VFIG-DATA를 구축하고, 원자적 요소 학습부터 전역적 구조 최적화까지 이어지는 단계별 학습 및 강화학습 기법을 적용했습니다. 자체 벤치마크인 VFIG-BENCH에서 오픈소스 모델 중 최고 수준의 성능을 기록하며 복잡한 도표의 구조적 무결성을 입증했습니다.
우리 팀 영향: 기술 문서나 디자인 자산의 자동 벡터화 공정을 개선하여 편집 효율성을 크게 높일 수 있습니다.
액션: 실험
액션 근거: 오픈소스 모델임에도 상용 모델에 근접한 성능을 보여주며, 복잡한 도표를 다루는 데이터셋과 학습 방법론의 활용 가치가 높기 때문입니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

15) Vega: Learning to Drive with Natural Language Instructions

arXiv: https://arxiv.org/abs/2603.25741
HF: https://huggingface.co/papers/2603.25741
카테고리: -
테마: Reasoning
우선순위 점수: 0.733
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: Vega는 사용자 지시사항을 따르는 자율주행을 위해 10만 개의 시나리오를 포함한 InstructScene 데이터셋을 구축하고 새로운 모델 구조를 제안합니다. 시각 및 언어 입력은 자기회귀 방식으로 처리하며, 미래 예측과 궤적 생성은 디퓨전 모델을 활용하여 통합적인 의사결정을 수행합니다. 실험 결과, 기존 모델들보다 우수한 계획 성능과 정교한 지시 이행 능력을 입증하였습니다.
우리 팀 영향: 사용자의 다양한 자연어 명령에 반응하는 개인화된 자율주행 시스템 구축을 위한 데이터셋과 멀티모달 아키텍처 설계에 참고할 수 있습니다.
액션: 실험
액션 근거: 자기회귀와 디퓨전 패러다임을 결합한 하이브리드 구조가 자율주행의 계획 성능 향상에 기여하는지 검증할 가치가 있습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

16) Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models

arXiv: https://arxiv.org/abs/2603.24844
HF: https://huggingface.co/papers/2603.24844
카테고리: -
테마: Reasoning, Benchmark
우선순위 점수: 0.667
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 본 논문은 언어 모델이 단일 정답에만 집중하는 현상을 해결하기 위해 여러 개의 타당한 답변을 한 번에 생성하는 다중 답변 강화학습(Multi-answer RL) 기법을 제안합니다. 추론 시 반복적인 샘플링 없이도 단일 패스 내에서 다양한 후보군을 생성하며, 답변의 다양성과 세트 수준의 보정 성능을 향상시켰습니다. 의료 진단 및 코딩 벤치마크에서 기존 방식보다 적은 토큰으로도 높은 정확도와 커버리지를 입증했습니다.
우리 팀 영향: 추론 시간의 효율성을 유지하면서도 모호한 질문에 대해 다각도의 답변을 제공해야 하는 서비스 고도화에 기여할 수 있습니다.
액션: 실험
액션 근거: Best-of-k 방식 대비 연산 효율성이 높고 코딩 및 의료 도메인에서 실질적인 성능 향상이 확인되었으므로 내부 벤치마크 적용을 검토할 가치가 있습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

17) Nudging Hidden States: Training-Free Model Steering for Chain-of-Thought Reasoning in Large Audio-Language Models

arXiv: https://arxiv.org/abs/2603.14636
HF: https://huggingface.co/papers/2603.14636
카테고리: -
테마: Reasoning
우선순위 점수: 0.667
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 대규모 오디오-언어 모델(LALM)의 추론 능력을 향상시키기 위해 별도의 학습 없이 추론 시점에 은닉 상태를 조정하는 모델 스티어링 기법을 제안합니다. 텍스트 샘플에서 추출한 스티어링 벡터가 음성 기반 추론에도 효과적으로 전이됨을 확인하였으며, 4개의 벤치마크에서 최대 4.4%의 성능 향상을 기록했습니다. 하이퍼파라미터 민감도 분석을 통해 제안된 방식의 실용성과 데이터 효율성을 입증했습니다.
우리 팀 영향: 추가 학습 비용 없이 오디오 모델의 추론 성능을 개선할 수 있어, 자원 제약이 있는 환경에서 음성 기반 추론 모델 고도화에 활용 가능합니다.
액션: 실험
액션 근거: 학습 없이 텍스트 벡터를 오디오 모델에 전이하여 성능을 높이는 방식의 효율성이 높으므로 내부 모델 적용 가능성을 확인할 가치가 있습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

18) IQuest-Coder-V1 Technical Report

arXiv: https://arxiv.org/abs/2603.16733
HF: https://huggingface.co/papers/2603.16733
카테고리: -
테마: Agent, Reasoning
우선순위 점수: 0.633
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: IQuest-Coder-V1은 코드의 동적 진화를 반영하는 코드-플로우 다단계 훈련 패러다임을 도입한 새로운 코드 LLM 시리즈입니다. 32k 컨텍스트의 추론 궤적과 128k 컨텍스트의 레포지토리 규모 데이터를 통합한 미드 트레이닝을 거쳐, 사고 경로와 지시 경로로 이원화된 포스트 트레이닝을 수행합니다. 이를 통해 에이전트 기반 소프트웨어 엔지니어링 및 복잡한 도구 사용 능력에서 우수한 성능을 보여줍니다.
우리 팀 영향: 에이전트 기반 코드 생성 및 대규모 레포지토리 분석을 위한 추론 중심 모델 설계 방식을 참고하여 내부 코드 어시스턴트 성능 개선에 활용할 수 있습니다.
액션: 실험
액션 근거: 추론 기반 RL과 에이전트 궤적 데이터를 활용한 다단계 훈련 방식이 실제 개발 환경에서의 문제 해결 능력 향상에 유효한지 검증이 필요합니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

19) AVControl: Efficient Framework for Training Audio-Visual Controls

arXiv: https://arxiv.org/abs/2603.24793
HF: https://huggingface.co/papers/2603.24793
카테고리: -
테마: Benchmark
우선순위 점수: 0.567
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: AVControl은 LTX-2 기반의 경량화된 오디오-비주얼 제어 프레임워크로, 각 제어 모달리티를 독립적인 LoRA 어댑터로 학습합니다. 병렬 캔버스 방식을 통해 구조적 제어 성능을 높였으며, 깊이, 포즈, 카메라 궤적 등 다양한 제어 기능을 모듈식으로 지원합니다. VACE 벤치마크에서 기존 베이스라인 대비 우수한 성능을 보이며 데이터 및 연산 효율성을 입증했습니다.
우리 팀 영향: 모듈형 LoRA 구조를 통해 대규모 모델 수정 없이도 오디오-비주얼 생성 제어 기능을 효율적으로 확장할 수 있는 방법론을 제시합니다.
액션: 실험
액션 근거: 적은 데이터와 연산량으로도 정밀한 비디오/오디오 제어가 가능하다는 점에서 내부 생성 모델 고도화에 활용 가능성이 높습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

20) Less Gaussians, Texture More: 4K Feed-Forward Textured Splatting

arXiv: https://arxiv.org/abs/2603.25745
HF: https://huggingface.co/papers/2603.25745
카테고리: -
테마: General
우선순위 점수: 0.333
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: LGTM은 픽셀 정렬 방식의 기존 가우시안 스플래팅 방식이 해상도 증가에 따라 연산량이 급증하는 문제를 해결하기 위해 제안되었습니다. 가우시안 프리미티브에 텍스처를 결합하여 기하학적 복잡도와 렌더링 해상도를 분리함으로써 적은 수의 프리미티브로도 고해상도 구현이 가능합니다. 이를 통해 별도의 장면 최적화 없이도 피드포워드 방식만으로 4K 수준의 고화질 신규 뷰 합성을 수행할 수 있습니다.
우리 팀 영향: 고해상도 3D 콘텐츠 생성 시 연산 효율성을 극대화하고 4K급 렌더링 성능을 확보하는 데 기여할 수 있습니다.
액션: 실험
액션 근거: 피드포워드 방식의 한계인 해상도 확장성 문제를 텍스처 결합형 가우시안으로 해결한 접근법이 실용적 가치가 높다고 판단됩니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

21) MuRF: Unlocking the Multi-Scale Potential of Vision Foundation Models

arXiv: https://arxiv.org/abs/2603.25744
HF: https://huggingface.co/papers/2603.25744
카테고리: -
테마: General
우선순위 점수: 0.267
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: MuRF는 고정된 단일 해상도 추론 방식에서 벗어나, 여러 해상도의 특징을 결합하여 시각 기초 모델(VFM)의 성능을 높이는 전략입니다. 저해상도의 전역적 의미 정보와 고해상도의 세부 정보를 융합하며, 별도의 추가 학습 없이 기존 모델에 즉시 적용 가능합니다. DINOv2 및 SigLIP2 등 다양한 모델 아키텍처에서 범용적인 성능 향상을 입증했습니다.
우리 팀 영향: 추가 학습 비용 없이 기존 시각 모델의 추론 성능을 개선할 수 있는 범용적인 후처리 기법으로 활용될 가능성이 높습니다.
액션: 실험
액션 근거: 학습 없이 다중 해상도 융합만으로 성능 향상이 가능하다는 점에서 현재 활용 중인 VFM 모델들에 적용하여 효율성을 검증할 가치가 있습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

22) Representation Alignment for Just Image Transformers is not Easier than You Think

arXiv: https://arxiv.org/abs/2603.14366
HF: https://huggingface.co/papers/2603.14366
카테고리: -
테마: General
우선순위 점수: 0.267
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 본 논문은 픽셀 공간 확산 트랜스포머(JiT)에서 기존 표현 정렬(REPA) 방식이 정보 비대칭으로 인해 성능 저하와 다양성 붕괴를 초래함을 밝혀냈습니다. 이를 해결하기 위해 정렬 대상을 변환하고 마스크드 트랜스포머 어댑터를 사용하는 PixelREPA를 제안했습니다. 실험 결과, ImageNet 256x256 환경에서 2배 빠른 수렴 속도와 함께 FID 1.81의 향상된 성능을 달성했습니다.
우리 팀 영향: 픽셀 기반 확산 모델의 학습 효율성과 생성 품질을 동시에 개선할 수 있는 새로운 정렬 기법을 확보할 수 있습니다.
액션: 실험
액션 근거: 기존 REPA의 한계를 극복하고 2배 이상의 수렴 가속화와 성능 향상을 입증했으므로 내부 모델에 적용 가능성을 검토할 가치가 있습니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

23) S2D2: Fast Decoding for Diffusion LLMs via Training-Free Self-Speculation

arXiv: https://arxiv.org/abs/2603.25702
HF: https://huggingface.co/papers/2603.25702
카테고리: -
테마: General
우선순위 점수: 0.133
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: S2D2는 추가 학습 없이 블록 확산 언어 모델의 생성 속도를 높이는 자가 추측 디코딩 프레임워크입니다. 블록 크기를 1로 줄이면 모델이 자기회귀적으로 동작한다는 점을 이용해, 동일 모델이 초안 작성과 검증을 동시에 수행하며 가벼운 라우팅 정책으로 효율을 극대화합니다. SDAR 및 LLaDA2.1-Mini 모델에서 기존 방식 대비 최대 4.7배의 속도 향상과 정확도 개선을 입증했습니다.
우리 팀 영향: 추가 학습 비용 없이 기존 확산 기반 언어 모델의 추론 속도와 정확도를 동시에 개선할 수 있는 실용적인 방법론을 제시합니다.
액션: 실험
액션 근거: 별도의 학습 없이 기존 모델의 구조적 특성만을 활용해 성능 향상을 얻을 수 있어, 현재 보유 중인 확산 모델에 즉시 적용 및 검증이 가능하기 때문입니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

24) BioVITA: Biological Dataset, Model, and Benchmark for Visual-Textual-Acoustic Alignment

arXiv: https://arxiv.org/abs/2603.23883
HF: https://huggingface.co/papers/2603.23883
카테고리: -
테마: RAG, Benchmark
우선순위 점수: 0.1
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: BioVITA는 이미지, 텍스트, 오디오를 통합하여 생물 종을 식별하는 시각-텍스트-음향 정렬 프레임워크입니다. 1.3백만 개의 오디오 클립과 2.3백만 개의 이미지를 포함한 대규모 데이터셋을 구축하고, BioCLIP2를 기반으로 한 2단계 학습 방식을 제안합니다. 모든 모달리티 간 상호 검색이 가능한 벤치마크를 통해 종 수준의 의미론적 이해 성능을 입증했습니다.
우리 팀 영향: 멀티모달 데이터 정렬 기술을 통해 생태계 모니터링 및 생물 다양성 분석 시스템의 정확도를 높이는 데 기여할 수 있습니다.
액션: 실험
액션 근거: 기존 시각-텍스트 모델에 오디오 모달리티를 효과적으로 통합한 방법론과 대규모 데이터셋의 효용성을 직접 검증할 가치가 있습니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

25) Electrostatic Photoluminescence Tuning in All-Solid-State Perovskite Transistors

arXiv: https://arxiv.org/abs/2603.25718
HF: https://huggingface.co/papers/2603.25718
카테고리: -
테마: General
우선순위 점수: 0.067
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 에피택셜 단결정 금속 할라이드 페로브스카이트를 기반으로 게이트 전압을 통해 광루미네선스(PL)를 가역적으로 조절하는 전고체 트랜지스터를 개발했습니다. 게이트 전계가 계면의 이동 전하 밀도를 정전기적으로 제어하여 비방사 재결합 손실을 65%에서 최대 98%까지 억제합니다. 이를 통해 대면적 박막 소자에서 높은 외부 광루미네선스 양자 효율과 정전기적 튜닝이 가능한 광전자 스위치 기능을 입증했습니다.
우리 팀 영향: 페로브스카이트 소자의 비방사 재결합을 정전기적으로 제어하는 메커니즘은 고효율 광전자 소자 및 스위치 설계에 응용될 수 있습니다.
액션: 실험
액션 근거: 게이트 전압을 통한 비방사 손실의 획기적인 감소 수치와 전고체 소자 구현 방식이 기술적 실용성이 높기 때문입니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

26) Pixel-level Scene Understanding in One Token: Visual States Need What-is-Where Composition

arXiv: https://arxiv.org/abs/2603.13904
HF: https://huggingface.co/papers/2603.13904
카테고리: -
테마: General
우선순위 점수: 0.067
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 로봇 에이전트의 의사결정을 위해 장면 내 객체의 정체성과 위치를 동시에 인코딩하는 시각적 상태 표현 프레임워크 CroBo를 제안합니다. 글로벌-로컬 재구성 목적 함수를 통해 압축된 토큰이 세밀한 의미론적 정보와 공간적 구성을 학습하도록 유도합니다. 다양한 로봇 정책 학습 벤치마크에서 우수한 성능을 보이며 픽셀 수준의 장면 이해 능력을 입증했습니다.
우리 팀 영향: 로봇 제어 및 동적 환경 이해를 위한 시각적 표현 학습 시, 객체의 위치와 정체성을 결합한 토큰 구성 방식을 참고할 수 있습니다.
액션: 실험
액션 근거: 로봇 정책 학습에서 픽셀 수준의 세밀한 장면 이해가 성능에 미치는 영향을 검증하기 위해 자체 데이터셋에 적용해 볼 가치가 있습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

27) PMT: Plain Mask Transformer for Image and Video Segmentation with Frozen Vision Encoders

arXiv: https://arxiv.org/abs/2603.25398
HF: https://huggingface.co/papers/2603.25398
카테고리: -
테마: General
우선순위 점수: 0.033
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: PMT는 고정된 비전 파운데이션 모델(VFM) 인코더 위에서 작동하는 경량 트랜스포머 기반 세그멘테이션 디코더인 PMD를 제안합니다. 인코더를 튜닝하지 않고도 이미지와 비디오 세그멘테이션 모두에서 높은 효율성을 유지하며, 기존 인코더 전용 모델의 단순성과 속도를 계승합니다. 이미지 세그멘테이션에서는 기존 모델 대비 최대 3배, 비디오에서는 최대 8배 빠른 속도를 기록하면서도 경쟁력 있는 성능을 보여줍니다.
우리 팀 영향: 고정된 인코더를 공유하면서도 다중 태스크를 수행할 수 있어 대규모 배포 시 인프라 비용 절감과 추론 속도 향상에 기여할 수 있습니다.
액션: 실험
액션 근거: 기존 VFM 인코더를 그대로 활용하면서도 비디오 세그멘테이션에서 압도적인 속도 향상을 보였다는 점에서 실시간 서비스 적용 가능성을 검증할 가치가 있습니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

28) WAFT-Stereo: Warping-Alone Field Transforms for Stereo Matching

arXiv: https://arxiv.org/abs/2603.24836
HF: https://huggingface.co/papers/2603.24836
카테고리: -
테마: Benchmark
우선순위 점수: 0.033
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: WAFT-Stereo는 기존 스테레오 매칭의 필수 요소였던 비용 볼륨(Cost Volume) 없이 워핑(Warping)만으로 높은 성능을 구현한 모델입니다. ETH3D, KITTI, Middlebury 벤치마크에서 1위를 기록했으며, 특히 ETH3D 제로샷 에러를 81% 감소시켰습니다. 기존 경쟁 모델 대비 1.8배에서 6.7배 빠른 추론 속도를 제공하여 효율성을 극대화했습니다.
우리 팀 영향: 비용 볼륨을 제거한 구조를 통해 연산 효율성을 확보함으로써 실시간 스테레오 매칭 시스템 구축에 기여할 수 있습니다.
액션: 실험
액션 근거: 주요 벤치마크에서 1위를 달성함과 동시에 압도적인 속도 향상을 입증했으므로 실제 성능 검증이 필요합니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

29) Extending Precipitation Nowcasting Horizons via Spectral Fusion of Radar Observations and Foundation Model Priors

arXiv: https://arxiv.org/abs/2603.21768
HF: https://huggingface.co/papers/2603.21768
카테고리: -
테마: Safety
우선순위 점수: 0.033
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: PW-FouCast는 레이더 관측 데이터와 Pangu-Weather 기상 파운데이션 모델의 예측치를 주파수 영역에서 융합하는 강수 예보 프레임워크입니다. 푸리에 기반 백본을 활용하여 기상 변수 간의 표현적 이질성을 해결하고, 주파수 변조 및 메모리 기법을 통해 예측 시계열을 확장했습니다. SEVIR 및 MeteoNet 벤치마크에서 구조적 정확도를 유지하며 기존 모델 대비 향상된 성능을 입증했습니다.
우리 팀 영향: 기상 파운데이션 모델의 사전 지식을 레이더 데이터와 결합하는 주파수 도메인 융합 기술은 장기 강수 예측의 정확도를 높이는 데 기여할 수 있습니다.
액션: 실험
액션 근거: 기존 레이더 전용 모델의 한계를 파운데이션 모델의 기상 정보를 활용해 극복한 접근 방식이 실무적 가치가 높다고 판단됩니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

보류/무시

사유와 재검토일을 기록하세요.

논문 리뷰 2026-03-30 논문 리뷰 2026-03-28

00. 시작하기

01. AI IDE

02. IDE 확장/플러그인

03. CLI/멀티 플랫폼

04. 에이전트 하네스

05. AI 웹 빌더

06. 워크플로우 플랫폼

08. 일일 리뷰 리포트

07. 논문 트렌드

​논문 리뷰 2026-03-29

​Daily Paper Review - 2026-03-29

​수집 요약

​Top Papers

​1) Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale

​2) PixelSmile: Toward Fine-Grained Facial Expression Editing

​3) MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens

​4) RealRestorer: Towards Generalizable Real-World Image Restoration with Large-Scale Image Editing Models

​5) MACRO: Advancing Multi-Reference Image Generation with Structured Long-Context Data

​6) FinMCP-Bench: Benchmarking LLM Agents for Real-World Financial Tool Use under the Model Context Protocol

​7) MemMA: Coordinating the Memory Cycle through Multi-Agent Reasoning and In-Situ Self-Evolution

​8) Calibri: Enhancing Diffusion Transformers via Parameter-Efficient Calibration

​9) SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks

​10) AVO: Agentic Variation Operators for Autonomous Evolutionary Search

​11) Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes

​12) Voxtral TTS

​13) Can MLLMs Read Students’ Minds? Unpacking Multimodal Error Analysis in Handwritten Math

​14) VFIG: Vectorizing Complex Figures in SVG with Vision-Language Models

​15) Vega: Learning to Drive with Natural Language Instructions

​16) Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models

​17) Nudging Hidden States: Training-Free Model Steering for Chain-of-Thought Reasoning in Large Audio-Language Models

​18) IQuest-Coder-V1 Technical Report

​19) AVControl: Efficient Framework for Training Audio-Visual Controls

​20) Less Gaussians, Texture More: 4K Feed-Forward Textured Splatting

​21) MuRF: Unlocking the Multi-Scale Potential of Vision Foundation Models

​22) Representation Alignment for Just Image Transformers is not Easier than You Think

​23) S2D2: Fast Decoding for Diffusion LLMs via Training-Free Self-Speculation

​24) BioVITA: Biological Dataset, Model, and Benchmark for Visual-Textual-Acoustic Alignment

​25) Electrostatic Photoluminescence Tuning in All-Solid-State Perovskite Transistors

​26) Pixel-level Scene Understanding in One Token: Visual States Need What-is-Where Composition

​27) PMT: Plain Mask Transformer for Image and Video Segmentation with Frozen Vision Encoders

​28) WAFT-Stereo: Warping-Alone Field Transforms for Stereo Matching

​29) Extending Precipitation Nowcasting Horizons via Spectral Fusion of Radar Observations and Foundation Model Priors

​보류/무시

논문 리뷰 2026-03-29

Daily Paper Review - 2026-03-29

수집 요약

Top Papers

1) Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale

2) PixelSmile: Toward Fine-Grained Facial Expression Editing

3) MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens

4) RealRestorer: Towards Generalizable Real-World Image Restoration with Large-Scale Image Editing Models

5) MACRO: Advancing Multi-Reference Image Generation with Structured Long-Context Data

6) FinMCP-Bench: Benchmarking LLM Agents for Real-World Financial Tool Use under the Model Context Protocol

7) MemMA: Coordinating the Memory Cycle through Multi-Agent Reasoning and In-Situ Self-Evolution

8) Calibri: Enhancing Diffusion Transformers via Parameter-Efficient Calibration

9) SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks

10) AVO: Agentic Variation Operators for Autonomous Evolutionary Search

11) Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes

12) Voxtral TTS

13) Can MLLMs Read Students’ Minds? Unpacking Multimodal Error Analysis in Handwritten Math

14) VFIG: Vectorizing Complex Figures in SVG with Vision-Language Models

15) Vega: Learning to Drive with Natural Language Instructions

16) Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models

17) Nudging Hidden States: Training-Free Model Steering for Chain-of-Thought Reasoning in Large Audio-Language Models

18) IQuest-Coder-V1 Technical Report

19) AVControl: Efficient Framework for Training Audio-Visual Controls

20) Less Gaussians, Texture More: 4K Feed-Forward Textured Splatting

21) MuRF: Unlocking the Multi-Scale Potential of Vision Foundation Models

22) Representation Alignment for Just Image Transformers is not Easier than You Think

23) S2D2: Fast Decoding for Diffusion LLMs via Training-Free Self-Speculation

24) BioVITA: Biological Dataset, Model, and Benchmark for Visual-Textual-Acoustic Alignment

25) Electrostatic Photoluminescence Tuning in All-Solid-State Perovskite Transistors

26) Pixel-level Scene Understanding in One Token: Visual States Need What-is-Where Composition

27) PMT: Plain Mask Transformer for Image and Video Segmentation with Frozen Vision Encoders

28) WAFT-Stereo: Warping-Alone Field Transforms for Stereo Matching

29) Extending Precipitation Nowcasting Horizons via Spectral Fusion of Radar Observations and Foundation Model Priors

보류/무시