논문 리뷰 2026-04-02
Daily Paper Review - 2026-04-02
수집 요약
Top Papers
1) ClawKeeper: Comprehensive Safety Protection for OpenClaw Agents Through Skills, Plugins, and Watchers
2) MiroEval: Benchmarking Multimodal Deep Research Agents in Process and Outcome
3) Reasoning Shift: How Context Silently Shortens LLM Reasoning
4) Terminal Agents Suffice for Enterprise Automation
5) Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification
6) Understand and Accelerate Memory Processing Pipeline for Disaggregated LLM Inference
7) ViGoR-Bench: How Far Are Visual Generative Models From Zero-Shot Visual Reasoners?
8) HippoCamp: Benchmarking Contextual Agents on Personal Computers
9) PerceptionComp: A Video Benchmark for Complex Perception-Centric Reasoning
10) QuitoBench: A High-Quality Open Time Series Forecasting Benchmark
11) Brevity Constraints Reverse Performance Hierarchies in Language Models
12) Paper Reconstruction Evaluation: Evaluating Presentation and Hallucination in AI-written Papers
13) A Survey of On-Policy Distillation for Large Language Models
14) Do Phone-Use Agents Respect Your Privacy?
15) MemRerank: Preference Memory for Personalized Product Reranking
16) Universal YOCO for Efficient Depth Scaling
17) Embarrassingly Simple Self-Distillation Improves Code Generation
18) Proactive Agent Research Environment: Simulating Active Users to Evaluate Proactive Assistants
19) Think, Act, Build: An Agentic Framework with Vision Language Models for Zero-Shot 3D Visual Grounding
20) Revision or Re-Solving? Decomposing Second-Pass Gains in Multi-LLM Pipelines
21) Benchmarking and Mechanistic Analysis of Vision-Language Models for Cross-Depiction Assembly Instruction Alignment
22) GaussianGPT: Towards Autoregressive 3D Gaussian Scene Generation
23) UniMixer: A Unified Architecture for Scaling Laws in Recommendation Systems
24) MMaDA-VLA: Large Diffusion Vision-Language-Action Model with Unified Multi-Modal Instruction and Generation
25) AI Generalisation Gap In Comorbid Sleep Disorder Staging
보류/무시

논문 리뷰 2026-04-02

기준일: 2026-04-02
수집 건수(중복 제거): 25
발행 Top N: 25
원본 리포트: trend/reports/daily/2026-04-02.md
마지막 갱신: 2026-04-03 00:02:35

Daily Paper Review - 2026-04-02

수집 요약

총 수집(중복 제거 후): 25
발행 Top N: 25
LLM 요약 성공: 25
LLM 요약 폴백: 0

Top Papers

1) ClawKeeper: Comprehensive Safety Protection for OpenClaw Agents Through Skills, Plugins, and Watchers

arXiv: https://arxiv.org/abs/2603.24414
HF: https://huggingface.co/papers/2603.24414
카테고리: -
테마: Agent, Safety, Security
우선순위 점수: 5.2
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: ClawKeeper는 OpenClaw 에이전트의 보안 취약점을 해결하기 위해 스킬, 플러그인, 와처(Watcher)의 3단계 계층 구조를 제안하는 실시간 보안 프레임워크입니다. 스킬 기반 보호는 명령 수준에서 정책을 주입하고, 플러그인은 런타임 모니터링을 수행하며, 와처는 시스템 수준에서 고위험 작업을 차단하거나 사용자 승인을 요구합니다. 다양한 위협 시나리오에 대한 정성적 및 정량적 평가를 통해 에이전트 보안 강화의 효과성을 입증했습니다.
우리 팀 영향: 자율 에이전트 도입 시 발생할 수 있는 데이터 유출 및 권한 상승 위협을 시스템 수준에서 제어할 수 있는 다층 방어 아키텍처를 참고할 수 있습니다.
액션: 실험
액션 근거: 에이전트의 내부 로직과 분리된 와처(Watcher) 방식의 보안 미들웨어 구현 방식이 실무 적용 가능성이 높다고 판단됩니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

2) MiroEval: Benchmarking Multimodal Deep Research Agents in Process and Outcome

arXiv: https://arxiv.org/abs/2603.28407
HF: https://huggingface.co/papers/2603.28407
카테고리: -
테마: RAG, Agent, Reasoning
우선순위 점수: 2.867
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: MiroEval은 딥 리서치 에이전트의 결과물뿐만 아니라 연구 과정과 멀티모달 처리 능력을 평가하기 위한 새로운 벤치마크 프레임워크입니다. 100개의 실제 사용자 기반 태스크를 통해 적응형 품질 평가, 에이전트 기반 사실 확인, 프로세스 중심 감사의 세 가지 차원에서 시스템을 분석합니다. 실험 결과 멀티모달 태스크에서 성능 저하가 두드러졌으며, 연구 과정의 품질이 최종 결과의 신뢰도를 예측하는 중요한 지표임을 확인했습니다.
우리 팀 영향: 리서치 에이전트 개발 시 최종 리포트의 품질뿐만 아니라 검색 및 추론 과정의 타당성을 정량적으로 검증할 수 있는 평가 체계를 참고할 수 있습니다.
액션: 실험
액션 근거: 멀티모달 리서치 에이전트의 성능 병목 지점을 파악하고 프로세스 중심 평가 방법론을 내부 모델 벤치마킹에 적용하기 위함입니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

3) Reasoning Shift: How Context Silently Shortens LLM Reasoning

arXiv: https://arxiv.org/abs/2604.01161
HF: https://huggingface.co/papers/2604.01161
카테고리: -
테마: LLM, Reasoning, Evaluation
우선순위 점수: 2.467
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: LLM의 추론 과정이 긴 문맥이나 복합적인 작업 환경에서 독립적인 상황보다 최대 50%까지 짧아지는 ‘Reasoning Shift’ 현상을 분석했습니다. 이러한 압축은 주로 자기 검증이나 불확실성 관리 행동의 감소로 인해 발생하며, 단순한 문제에서는 성능이 유지되나 복잡한 과제에서는 잠재적 위험 요소가 됩니다. 연구팀은 다양한 시나리오를 통해 추론 모델의 견고성과 문맥 관리의 중요성을 강조했습니다.
우리 팀 영향: 긴 문맥이나 멀티턴 대화 환경에서 모델의 추론 품질이 저하될 수 있음을 인지하고 에이전트 설계 시 문맥 관리에 주의해야 합니다.
액션: 실험
액션 근거: 복합적인 프롬프트 환경에서 모델의 추론 추적(Trace)이 실제로 단축되는지 확인하고 이를 방지할 프롬프트 기법을 테스트할 필요가 있습니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

4) Terminal Agents Suffice for Enterprise Automation

arXiv: https://arxiv.org/abs/2604.00073
HF: https://huggingface.co/papers/2604.00073
카테고리: -
테마: Agent
우선순위 점수: 2.333
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 복잡한 GUI나 MCP 추상화 대신 터미널과 파일 시스템만 사용하는 코딩 에이전트가 기업용 자동화 작업에 충분하다는 가설을 제시합니다. 연구진은 플랫폼 API와 직접 상호작용하는 저수준 터미널 에이전트가 더 복잡한 아키텍처와 대등하거나 더 나은 성능을 보임을 입증했습니다. 이는 강력한 파운데이션 모델과 단순한 프로그래밍 인터페이스의 조합만으로도 실용적인 자동화가 가능함을 시사합니다.
우리 팀 영향: 복잡한 에이전트 시스템 구축 비용을 줄이고 API 기반의 단순한 터미널 인터페이스로 효율적인 자동화 환경을 설계할 수 있습니다.
액션: 실험
액션 근거: 기존의 복잡한 GUI 기반 에이전트 대비 터미널 기반 에이전트의 효율성과 성능 우위를 직접 검증할 가치가 있습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

5) Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification

arXiv: https://arxiv.org/abs/2603.26648
HF: https://huggingface.co/papers/2603.26648
카테고리: -
테마: Agent, Benchmark, Evaluation
우선순위 점수: 2.267
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: Vision2Web은 정적 UI 생성부터 풀스택 개발까지 아우르는 시각적 웹사이트 개발 벤치마크로, 16개 카테고리의 193개 작업을 포함합니다. GUI 에이전트와 VLM 기반 판별기를 결합한 워크플로우 검증 패러다임을 통해 에이전트의 성능을 다각도로 평가합니다. 실험 결과 최신 모델들도 복잡한 풀스택 개발 단계에서는 여전히 큰 성능 한계를 보였습니다.
우리 팀 영향: 웹 개발 에이전트의 시각적 이해도와 코드 생성 능력을 정밀하게 측정할 수 있는 평가 지표 및 데이터셋으로 활용 가능합니다.
액션: 실험
액션 근거: 실제 웹사이트 기반의 계층적 데이터셋과 검증 프레임워크가 구축되어 있어 내부 에이전트 성능 측정에 유용하기 때문입니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

6) Understand and Accelerate Memory Processing Pipeline for Disaggregated LLM Inference

arXiv: https://arxiv.org/abs/2603.29002
HF: https://huggingface.co/papers/2603.29002
카테고리: -
테마: RAG, LLM, Reasoning
우선순위 점수: 1.867
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: LLM 추론 시 발생하는 메모리 처리 과정을 4단계 파이프라인으로 정형화하고, 이 과정에서 발생하는 22%~97%의 오버헤드를 분석했습니다. GPU와 FPGA를 결합한 이기종 시스템을 통해 불규칙한 메모리 연산을 FPGA로 오프로딩하여 성능을 최적화했습니다. 실험 결과 기존 GPU 단독 시스템 대비 최대 2.2배의 속도 향상과 4.7배의 에너지 절감 효과를 입증했습니다.
우리 팀 영향: 이기종 하드웨어 가속을 통해 긴 컨텍스트 및 RAG 기반 LLM 서비스의 추론 비용과 지연 시간을 획기적으로 줄일 수 있는 아키텍처 방향성을 제시합니다.
액션: 실험
액션 근거: 메모리 집약적인 RAG 및 Sparse Attention 연산의 병목 현상을 해결하기 위한 하드웨어 가속 전략이 구체적이며 실질적인 성능 향상 수치를 제시하고 있기 때문입니다.
요약 신뢰도(모델): 0.92
리뷰 메모:

7) ViGoR-Bench: How Far Are Visual Generative Models From Zero-Shot Visual Reasoners?

arXiv: https://arxiv.org/abs/2603.25823
HF: https://huggingface.co/papers/2603.25823
카테고리: -
테마: Reasoning, Benchmark
우선순위 점수: 1.733
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: ViGoR-Bench는 시각 생성 모델의 물리적, 인과적, 공간적 추론 능력을 평가하기 위한 통합 벤치마크입니다. 이미지 및 비디오 생성 작업을 모두 아우르며, 최종 결과물뿐만 아니라 중간 생성 과정까지 평가하는 이중 트랙 메커니즘을 도입했습니다. 20개 이상의 주요 모델을 테스트한 결과, 최신 모델들도 복잡한 시각적 추론 영역에서 상당한 결함이 있음이 확인되었습니다.
우리 팀 영향: 생성 모델의 시각적 품질을 넘어 논리적 타당성을 정밀하게 측정할 수 있는 평가 지표로 활용 가능합니다.
액션: 실험
액션 근거: 현재 개발 중인 생성 모델의 논리적 결함을 진단하고 고도화하기 위한 객관적인 벤치마크 도구로 적합하기 때문입니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

8) HippoCamp: Benchmarking Contextual Agents on Personal Computers

arXiv: https://arxiv.org/abs/2604.01221
HF: https://huggingface.co/papers/2604.01221
카테고리: -
테마: RAG, Agent, Reasoning
우선순위 점수: 1.667
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: HippoCamp는 개인용 컴퓨터 환경에서 멀티모달 파일 관리 및 사용자 맞춤형 추론 능력을 평가하기 위한 새로운 벤치마크입니다. 2,000개 이상의 실제 파일과 581개의 질의응답 쌍을 통해 검색, 증거 인지, 다단계 추론 성능을 측정합니다. 실험 결과 최신 상용 모델들도 사용자 프로파일링에서 48.3%의 낮은 정확도를 보이며 긴 맥락의 검색과 교차 모달 추론에 한계를 드러냈습니다.
우리 팀 영향: 개인화된 RAG 및 에이전트 시스템 개발 시 멀티모달 파일 시스템 내에서의 검색 및 인지 성능을 정밀하게 검증하는 지표로 활용할 수 있습니다.
액션: 실험
액션 근거: 실제 사용자 환경과 유사한 대규모 멀티모달 데이터셋을 제공하므로, 현재 개발 중인 에이전트의 개인화 추론 성능을 객관적으로 벤치마킹하기에 적합합니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

9) PerceptionComp: A Video Benchmark for Complex Perception-Centric Reasoning

arXiv: https://arxiv.org/abs/2603.26653
HF: https://huggingface.co/papers/2603.26653
카테고리: -
테마: Reasoning, Benchmark, Evaluation
우선순위 점수: 1.667
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: PerceptionComp는 단일 장면이 아닌 여러 시점의 시각적 증거와 논리적 제약 조건을 결합해야 해결 가능한 복잡한 비디오 추론 벤치마크입니다. 1,114개의 수동 주석 질문을 통해 객체, 속성, 관계 등 다양한 지각 하위 작업과 시간적·공간적 추론 능력을 평가합니다. 실험 결과 Gemini-3-Flash와 같은 최신 모델도 45.96%의 낮은 정확도를 보여 기존 모델들의 한계를 드러냈습니다.
우리 팀 영향: 장기 비디오 이해 및 복잡한 논리 구조를 가진 멀티모달 모델의 성능을 정밀하게 측정하고 개선 방향을 설정하는 데 활용할 수 있습니다.
액션: 실험
액션 근거: 최신 MLLM들도 낮은 성능을 보이는 고난도 벤치마크이므로, 현재 개발 중인 모델의 지각 및 추론 한계를 테스트하기에 적합합니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

10) QuitoBench: A High-Quality Open Time Series Forecasting Benchmark

arXiv: https://arxiv.org/abs/2603.26017
HF: https://huggingface.co/papers/2603.26017
카테고리: -
테마: Benchmark, Evaluation
우선순위 점수: 1.433
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: QuitoBench는 Alipay의 10억 규모 시계열 데이터를 기반으로 8가지 특성별 체계(Regime)를 정의한 고품질 벤치마크입니다. 실험 결과, 짧은 컨텍스트에서는 딥러닝 모델이 우세하나 긴 컨텍스트에서는 파운데이션 모델이 더 높은 성능을 보였습니다. 또한 모델 크기 확장보다 학습 데이터 양의 확장이 성능 향상에 더 효과적임이 확인되었습니다.
우리 팀 영향: 대규모 시계열 데이터 학습 전략 수립 시 모델 크기보다 데이터 확보에 집중해야 한다는 실무적 가이드라인을 제공합니다.
액션: 실험
액션 근거: 다양한 시계열 특성에 따른 모델별 성능 교차 지점과 데이터 스케일링 효율성을 직접 검증할 가치가 있습니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

11) Brevity Constraints Reverse Performance Hierarchies in Language Models

arXiv: https://arxiv.org/abs/2604.00025
HF: https://huggingface.co/papers/2604.00025
카테고리: -
테마: Reasoning, Benchmark, Evaluation
우선순위 점수: 1.4
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 대규모 언어 모델이 특정 벤치마크에서 소형 모델보다 성능이 떨어지는 현상이 모델의 과도한 답변 길이(verbosity) 때문임을 규명했습니다. 31개 모델을 분석한 결과, 답변 길이를 제한하는 것만으로도 대형 모델의 정확도가 최대 26%p 향상되며 기존의 성능 역전 현상이 해소되었습니다. 이는 대형 모델의 잠재 능력이 부적절한 프롬프트 설계로 인해 가려져 있었음을 시사합니다.
우리 팀 영향: 모델 크기에 따른 최적 답변 길이가 다르므로, 비용 절감과 성능 향상을 위해 규모별 맞춤형 프롬프트 엔지니어링 전략이 필요합니다.
액션: 실험
액션 근거: 현재 사용 중인 대형 모델의 추론 성능을 극대화하기 위해 답변 길이 제한 프롬프트의 효과를 직접 검증할 가치가 있습니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

12) Paper Reconstruction Evaluation: Evaluating Presentation and Hallucination in AI-written Papers

arXiv: https://arxiv.org/abs/2604.01128
HF: https://huggingface.co/papers/2604.01128
카테고리: -
테마: Agent, Benchmark, Evaluation
우선순위 점수: 1.367
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: AI 코딩 에이전트가 작성한 논문의 품질과 환각 현상을 정량적으로 평가하기 위한 PaperRecon 프레임워크를 제안합니다. 2025년 이후 발표된 51개의 논문으로 구성된 PaperWrite-Bench를 통해 가독성과 환각 여부를 독립적으로 측정합니다. 실험 결과, ClaudeCode는 가독성이 높으나 환각이 빈번하고 Codex는 환각은 적으나 가독성이 떨어지는 트레이드오프 관계가 확인되었습니다.
우리 팀 영향: AI 에이전트를 활용한 연구 문서 작성 시 발생할 수 있는 환각 리스크를 체계적으로 검증하고 관리하는 벤치마크로 활용할 수 있습니다.
액션: 실험
액션 근거: 최신 AI 에이전트의 논문 작성 능력을 객관적으로 검증할 수 있는 프레임워크이므로 내부 에이전트 성능 평가에 도입할 가치가 있습니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

13) A Survey of On-Policy Distillation for Large Language Models

arXiv: https://arxiv.org/abs/2604.00626
HF: https://huggingface.co/papers/2604.00626
카테고리: -
테마: Agent, Reasoning
우선순위 점수: 1.333
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 본 논문은 소형 언어 모델의 성능 향상을 위해 학생 모델이 직접 생성한 데이터에 대해 피드백을 받는 온폴리시 증류(OPD) 기술을 체계적으로 정리한 서베이 논문입니다. 기존 오프폴리시 방식의 노출 편향 문제를 해결하기 위해 f-divergence 프레임워크를 제안하고 피드백 신호, 교사 모델 접근성, 손실 함수 입도에 따라 방법론을 분류했습니다. 산업계 적용 사례 분석과 함께 증류 스케일링 법칙 및 에이전트 수준의 증류 등 향후 연구 방향을 제시합니다.
우리 팀 영향: 추론 및 에이전트 성능 최적화를 위해 기존의 정적 데이터 학습 대신 학생 모델의 실시간 생성 결과물을 활용한 피드백 루프 구축의 이론적 근거로 활용할 수 있습니다.
액션: 도입 검토
액션 근거: 노출 편향 문제를 해결하고 소형 모델의 추론 능력을 극대화할 수 있는 최신 온폴리시 기법들을 체계적으로 분류하고 있어 기술 스택 고도화에 유용합니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

14) Do Phone-Use Agents Respect Your Privacy?

arXiv: https://arxiv.org/abs/2604.00986
HF: https://huggingface.co/papers/2604.00986
카테고리: -
테마: Agent, Evaluation
우선순위 점수: 1.233
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 모바일 에이전트의 개인정보 보호 행동을 측정하기 위해 MyPhoneBench라는 검증 가능한 평가 프레임워크를 제안했습니다. 5개의 최신 모델을 테스트한 결과, 모든 모델이 작업 수행 중 불필요한 개인정보를 입력하는 등 데이터 최소화 원칙을 준수하지 못하는 한계를 보였습니다. 작업 성공률과 개인정보 보호 준수 능력은 별개의 역량이며, 성공률만으로 에이전트의 성능을 평가하는 것은 위험하다는 점을 시사합니다.
우리 팀 영향: 사용자 데이터를 직접 다루는 모바일 에이전트 개발 시, 기능적 성공뿐만 아니라 데이터 최소화 및 권한 관리 로직을 필수적으로 검증해야 함을 시사합니다.
액션: 실험
액션 근거: 제안된 MyPhoneBench 프레임워크와 iMy 규약을 활용하여 현재 개발 중인 에이전트의 개인정보 노출 위험도를 정량적으로 측정해 볼 가치가 있습니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

15) MemRerank: Preference Memory for Personalized Product Reranking

arXiv: https://arxiv.org/abs/2603.29247
HF: https://huggingface.co/papers/2603.29247
카테고리: -
테마: LLM, Benchmark, Evaluation
우선순위 점수: 1.233
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: MemRerank는 방대한 사용자 구매 이력을 간결한 선호도 메모리로 요약하여 개인화된 상품 재순위화에 활용하는 프레임워크입니다. 강화학습을 통해 재순위화 성능을 직접적인 보상으로 사용하여 메모리 추출기를 최적화하며, 1-in-5 선택 태스크를 포함한 벤치마크를 구축했습니다. 실험 결과, 원본 이력을 그대로 사용하는 방식보다 정확도가 최대 10.61%p 향상되는 성능을 보였습니다.
우리 팀 영향: LLM 기반 추천 시스템에서 긴 사용자 이력을 효율적으로 압축하고 개인화 성능을 높이는 메모리 관리 기법으로 활용될 수 있습니다.
액션: 실험
액션 근거: 강화학습 기반의 메모리 추출 방식이 기존의 단순 이력 나열 방식보다 유의미한 성능 향상을 보였으므로 내부 추천 로직에 적용 가능성을 검토할 가치가 있습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

16) Universal YOCO for Efficient Depth Scaling

arXiv: https://arxiv.org/abs/2604.01220
HF: https://huggingface.co/papers/2604.01220
카테고리: -
테마: Reasoning
우선순위 점수: 0.967
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: YOCO-U는 YOCO 아키텍처와 재귀적 연산을 결합하여 추론 시간의 효율적인 확장을 가능하게 하는 모델입니다. 파라미터 공유를 통한 범용 셀프 디코더를 구현하여 모델 깊이를 늘리면서도 KV 캐시 크기를 일정하게 유지합니다. 이를 통해 긴 문맥 처리와 토큰 활용도를 개선하면서 연산 오버헤드를 최소화했습니다.
우리 팀 영향: KV 캐시 효율성과 추론 시간 확장성을 동시에 확보할 수 있어 대규모 언어 모델의 운영 비용 절감 및 성능 향상에 기여할 수 있습니다.
액션: 실험
액션 근거: YOCO 아키텍처의 선형 프리필링과 재귀적 연산의 결합이 실제 추론 효율성에 미치는 영향을 검증할 가치가 높습니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

17) Embarrassingly Simple Self-Distillation Improves Code Generation

arXiv: https://arxiv.org/abs/2604.01193
HF: https://huggingface.co/papers/2604.01193
카테고리: -
테마: LLM, Fine-Tuning
우선순위 점수: 0.767
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 별도의 검증기나 교사 모델 없이 모델 자신의 출력물만으로 파인튜닝하는 단순 자기 증류(SSD) 기법을 제안합니다. Qwen3-30B-Instruct 모델에서 LiveCodeBench 성능을 42.4%에서 55.3%로 향상시켰으며, 특히 난이도가 높은 문제에서 큰 효과를 보였습니다. 이 방법은 토큰 분포를 문맥에 맞게 재구성하여 정밀도가 필요한 부분의 노이즈를 억제하고 유용한 다양성을 유지합니다.
우리 팀 영향: 추가 데이터나 복잡한 RLHF 없이도 기존 모델의 코드 생성 성능을 효율적으로 개선할 수 있는 파이프라인 구축이 가능합니다.
액션: 실험
액션 근거: 구현이 매우 간단하면서도 다양한 규모의 모델에서 일관된 성능 향상을 입증했으므로 내부 코드 모델에 적용해 볼 가치가 높습니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

18) Proactive Agent Research Environment: Simulating Active Users to Evaluate Proactive Assistants

arXiv: https://arxiv.org/abs/2604.00842
HF: https://huggingface.co/papers/2604.00842
카테고리: -
테마: Agent, Benchmark
우선순위 점수: 0.767
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 사용자의 요구를 예측하여 자율적으로 작업을 수행하는 능동형 에이전트(Proactive Agent)를 평가하기 위한 Pare 프레임워크를 제안합니다. 기존의 단순 API 호출 방식에서 벗어나 상태 기반 유한 상태 기계(FSM) 모델을 통해 현실적인 사용자 시뮬레이션 환경을 구축했습니다. 이를 바탕으로 143개의 다양한 작업으로 구성된 Pare-Bench를 통해 에이전트의 상황 관찰 및 목표 추론 능력을 측정합니다.
우리 팀 영향: 능동형 에이전트의 성능을 정밀하게 측정할 수 있는 벤치마크와 시뮬레이션 환경을 확보하여 에이전트 고도화 전략 수립에 기여할 수 있습니다.
액션: 실험
액션 근거: 기존 벤치마크보다 현실적인 사용자 상호작용 모델을 제공하므로 현재 개발 중인 에이전트의 능동성 평가에 적합하다고 판단됩니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

19) Think, Act, Build: An Agentic Framework with Vision Language Models for Zero-Shot 3D Visual Grounding

arXiv: https://arxiv.org/abs/2604.00528
HF: https://huggingface.co/papers/2604.00528
카테고리: -
테마: Agent
우선순위 점수: 0.733
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: TAB 프레임워크는 3D 포인트 클라우드 전처리에 의존하는 기존 방식 대신 2D VLM 에이전트가 RGB-D 스트림에서 직접 대상을 추적하고 재구성하는 동적 방식을 제안합니다. VLM이 2D 프레임에서 시각적 도구를 호출하여 대상을 식별하면, 다중 뷰 기하학을 활용해 관찰되지 않은 프레임까지 공간 정보를 확장하여 3D 좌표로 매핑합니다. 이 방식은 오픈소스 모델만으로도 기존 제로샷 성능을 크게 상회하며 지도 학습 기반 모델보다 우수한 성능을 보였습니다.
우리 팀 영향: 전처리된 3D 데이터 없이도 2D VLM과 기하학적 지식을 결합하여 정밀한 3D 객체 국지화가 가능함을 시사합니다.
액션: 실험
액션 근거: 기존 3D-VG의 한계인 포인트 클라우드 의존성을 탈피하고 2D-to-3D 재구성 패러다임을 제시하여 실용성이 높기 때문입니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

20) Revision or Re-Solving? Decomposing Second-Pass Gains in Multi-LLM Pipelines

arXiv: https://arxiv.org/abs/2604.01029
HF: https://huggingface.co/papers/2604.01029
카테고리: -
테마: LLM
우선순위 점수: 0.667
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 본 논문은 Multi-LLM 파이프라인의 성능 향상이 실제 오류 수정보다는 재풀이, 스캐폴딩, 내용 전달이라는 세 가지 요소의 결합임을 실험적으로 증명했습니다. 지식 집약적 MCQ 작업에서는 강한 모델이 직접 푸는 것이 효율적이지만, 코딩 작업에서는 초안의 구조적 가이드가 성능 향상에 기여함을 확인했습니다. 결과적으로 작업의 특성과 초안의 품질에 따라 단순 수정 전략보다 정교한 파이프라인 설계가 필요함을 시사합니다.
우리 팀 영향: 단순한 모델 간 피드백 루프 구축보다 작업 성격에 따른 라우팅 또는 구조적 힌트 제공 전략이 더 효율적일 수 있음을 시사합니다.
액션: 실험
액션 근거: 현재 개발 중인 멀티 모델 파이프라인에서 단순 수정 방식과 직접 라우팅 방식의 효율성을 비교 검증할 가치가 있습니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

21) Benchmarking and Mechanistic Analysis of Vision-Language Models for Cross-Depiction Assembly Instruction Alignment

arXiv: https://arxiv.org/abs/2604.00913
HF: https://huggingface.co/papers/2604.00913
카테고리: -
테마: Reasoning, Benchmark
우선순위 점수: 0.667
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 이 논문은 2D 조립 도면과 실제 비디오 프레임 간의 시각적 차이를 극복하기 위한 VLM의 성능을 평가하는 IKEA-Bench를 제안합니다. 19개의 VLM을 분석한 결과, 텍스트 정보가 도면 이해에는 도움이 되지만 도면과 비디오 간의 정렬 성능은 오히려 저하시키는 것으로 나타났습니다. 분석을 통해 도면과 비디오가 서로 다른 ViT 하위 공간을 점유하고 있음을 밝혀내며 시각적 인코딩 개선의 필요성을 강조합니다.
우리 팀 영향: 추상적인 도면과 실제 환경 데이터 간의 정렬 문제를 다루고 있어, 제조 및 조립 보조 AI 시스템의 시각적 견고성 향상에 기여할 수 있습니다.
액션: 실험
액션 근거: 도면과 실제 영상 간의 도메인 갭을 해결하기 위한 ViT 하위 공간 분석 방법론을 우리 모델의 멀티모달 정렬 실험에 적용해볼 가치가 있습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

22) GaussianGPT: Towards Autoregressive 3D Gaussian Scene Generation

arXiv: https://arxiv.org/abs/2603.26661
HF: https://huggingface.co/papers/2603.26661
카테고리: -
테마: General
우선순위 점수: 0.267
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: GaussianGPT는 확산 모델 대신 자기회귀(Autoregressive) 방식을 사용하여 3D 가우시안 장면을 생성하는 트랜스포머 기반 모델입니다. 희소 3D 합성곱 오토인코더를 통해 가우시안 프리미티브를 이산 잠재 그리드로 압축하고, 이를 인과적 트랜스포머로 학습하여 순차적인 장면 생성을 구현했습니다. 이 방식은 단계별 장면 구성이 가능하여 아웃페인팅, 조건부 샘플링 및 유연한 생성 범위를 지원합니다.
우리 팀 영향: 3D 생성 분야에서 확산 모델 외에 자기회귀 트랜스포머 구조를 활용한 새로운 방법론적 대안을 제시합니다.
액션: 실험
액션 근거: 기존 확산 모델 기반 3D 생성의 한계를 극복하고 아웃페인팅 및 제어 가능한 샘플링 성능을 확인하기 위해 실험적 검증이 필요합니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

23) UniMixer: A Unified Architecture for Scaling Laws in Recommendation Systems

arXiv: https://arxiv.org/abs/2604.00590
HF: https://huggingface.co/papers/2604.00590
카테고리: -
테마: General
우선순위 점수: 0.1
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: UniMixer는 추천 시스템의 스케일링 효율을 높이기 위해 어텐션, TokenMixer, Factorization Machine 기반 구조를 통합한 프레임워크입니다. 규칙 기반의 TokenMixer를 학습 가능한 파라미터 구조로 변환하여 토큰 믹싱 패턴을 최적화하고 기존의 헤드 수 제약을 제거했습니다. 또한 연산 비용을 줄이면서 성능을 개선한 UniMixing-Lite 모듈을 통해 모델 확장 시의 투자 대비 효율(ROI)을 극대화했습니다.
우리 팀 영향: 다양한 추천 모델 구조를 단일 프레임워크로 통합하여 모델 규모 확장에 따른 성능 예측 및 효율적인 아키텍처 설계에 기여할 수 있습니다.
액션: 실험
액션 근거: 기존의 서로 다른 추천 아키텍처들을 통합하여 스케일링 법칙을 검증하고 효율적인 경량화 모듈을 제시하고 있어 실제 서비스 적용 가능성이 높습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

arXiv: https://arxiv.org/abs/2603.25406
HF: https://huggingface.co/papers/2603.25406
카테고리: -
테마: General
우선순위 점수: 0.1
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: MMaDA-VLA는 언어, 이미지, 로봇 제어를 단일 이산 토큰 공간으로 통합한 네이티브 확산 기반 VLA 모델입니다. 마스크 토큰 디노이징을 통해 미래의 목표 관측값과 액션 청크를 병렬로 생성하여 장기적인 일관성을 확보했습니다. 별도의 월드 모델 없이도 환경 역학을 캡처하며 LIBERO와 CALVIN 벤치마크에서 높은 성능을 입증했습니다.
우리 팀 영향: 단일 백본으로 시각적 미래 예측과 로봇 제어를 통합 생성하는 방식은 복잡한 조작 작업의 일관성 개선에 기여할 수 있습니다.
액션: 실험
액션 근거: 계층적 구조 없이 확산 모델을 통해 시각적 이해와 행동 생성을 통합한 접근법의 효율성을 검증할 가치가 있습니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

25) AI Generalisation Gap In Comorbid Sleep Disorder Staging

arXiv: https://arxiv.org/abs/2603.23582
HF: https://huggingface.co/papers/2603.23582
카테고리: -
테마: General
우선순위 점수: 0.0
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 건강한 피험자 데이터로 학습된 딥러닝 수면 단계 분류 모델이 뇌졸중 환자와 같은 임상 집단에서 일반화 성능이 급격히 저하됨을 확인했습니다. 연구진은 새로운 뇌졸중 환자 데이터셋인 iSLEEPS를 구축하고 Grad-CAM을 통해 모델이 환자 데이터의 비생리학적 영역에 집중하는 현상을 규명했습니다. 건강한 집단과 환자 집단 간의 수면 구조 차이가 크므로 임상 적용을 위해서는 질환 특화 모델과 검증이 필수적임을 강조합니다.
우리 팀 영향: 임상 데이터 적용 시 도메인 간 차이로 인한 성능 저하 및 해석 가능성 문제를 사전에 인지하고 질환별 특화 모델 개발의 필요성을 시사합니다.
액션: 실험
액션 근거: 공개 예정인 iSLEEPS 데이터셋과 Grad-CAM 분석 기법을 활용하여 도메인 일반화 실패 원인을 분석하고 모델의 신뢰성을 평가해볼 가치가 있습니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

보류/무시

사유와 재검토일을 기록하세요.

논문 리뷰 2026-04-03 논문 리뷰 2026-04-01

00. 시작하기

01. AI IDE

02. IDE 확장/플러그인

03. CLI/멀티 플랫폼

04. 에이전트 하네스

05. AI 웹 빌더

06. 워크플로우 플랫폼

08. 일일 리뷰 리포트

07. 논문 트렌드

논문 리뷰 2026-04-02

논문 리뷰 2026-04-02

Daily Paper Review - 2026-04-02

수집 요약

Top Papers

1) ClawKeeper: Comprehensive Safety Protection for OpenClaw Agents Through Skills, Plugins, and Watchers

2) MiroEval: Benchmarking Multimodal Deep Research Agents in Process and Outcome

3) Reasoning Shift: How Context Silently Shortens LLM Reasoning

4) Terminal Agents Suffice for Enterprise Automation

5) Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification

6) Understand and Accelerate Memory Processing Pipeline for Disaggregated LLM Inference

7) ViGoR-Bench: How Far Are Visual Generative Models From Zero-Shot Visual Reasoners?

8) HippoCamp: Benchmarking Contextual Agents on Personal Computers

9) PerceptionComp: A Video Benchmark for Complex Perception-Centric Reasoning

10) QuitoBench: A High-Quality Open Time Series Forecasting Benchmark

11) Brevity Constraints Reverse Performance Hierarchies in Language Models

12) Paper Reconstruction Evaluation: Evaluating Presentation and Hallucination in AI-written Papers

13) A Survey of On-Policy Distillation for Large Language Models

14) Do Phone-Use Agents Respect Your Privacy?

15) MemRerank: Preference Memory for Personalized Product Reranking

16) Universal YOCO for Efficient Depth Scaling

17) Embarrassingly Simple Self-Distillation Improves Code Generation

18) Proactive Agent Research Environment: Simulating Active Users to Evaluate Proactive Assistants

19) Think, Act, Build: An Agentic Framework with Vision Language Models for Zero-Shot 3D Visual Grounding

20) Revision or Re-Solving? Decomposing Second-Pass Gains in Multi-LLM Pipelines

21) Benchmarking and Mechanistic Analysis of Vision-Language Models for Cross-Depiction Assembly Instruction Alignment

22) GaussianGPT: Towards Autoregressive 3D Gaussian Scene Generation

23) UniMixer: A Unified Architecture for Scaling Laws in Recommendation Systems

25) AI Generalisation Gap In Comorbid Sleep Disorder Staging

보류/무시

00. 시작하기

01. AI IDE

02. IDE 확장/플러그인

03. CLI/멀티 플랫폼

04. 에이전트 하네스

05. AI 웹 빌더

06. 워크플로우 플랫폼

08. 일일 리뷰 리포트

07. 논문 트렌드

​논문 리뷰 2026-04-02

​Daily Paper Review - 2026-04-02

​수집 요약

​Top Papers

​1) ClawKeeper: Comprehensive Safety Protection for OpenClaw Agents Through Skills, Plugins, and Watchers

​2) MiroEval: Benchmarking Multimodal Deep Research Agents in Process and Outcome

​3) Reasoning Shift: How Context Silently Shortens LLM Reasoning

​4) Terminal Agents Suffice for Enterprise Automation

​5) Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification

​6) Understand and Accelerate Memory Processing Pipeline for Disaggregated LLM Inference

​7) ViGoR-Bench: How Far Are Visual Generative Models From Zero-Shot Visual Reasoners?

​8) HippoCamp: Benchmarking Contextual Agents on Personal Computers

​9) PerceptionComp: A Video Benchmark for Complex Perception-Centric Reasoning

​10) QuitoBench: A High-Quality Open Time Series Forecasting Benchmark

​11) Brevity Constraints Reverse Performance Hierarchies in Language Models

​12) Paper Reconstruction Evaluation: Evaluating Presentation and Hallucination in AI-written Papers

​13) A Survey of On-Policy Distillation for Large Language Models

​14) Do Phone-Use Agents Respect Your Privacy?

​15) MemRerank: Preference Memory for Personalized Product Reranking

​16) Universal YOCO for Efficient Depth Scaling

​17) Embarrassingly Simple Self-Distillation Improves Code Generation

​18) Proactive Agent Research Environment: Simulating Active Users to Evaluate Proactive Assistants

​19) Think, Act, Build: An Agentic Framework with Vision Language Models for Zero-Shot 3D Visual Grounding

​20) Revision or Re-Solving? Decomposing Second-Pass Gains in Multi-LLM Pipelines

​21) Benchmarking and Mechanistic Analysis of Vision-Language Models for Cross-Depiction Assembly Instruction Alignment

​22) GaussianGPT: Towards Autoregressive 3D Gaussian Scene Generation

​23) UniMixer: A Unified Architecture for Scaling Laws in Recommendation Systems

​24) MMaDA-VLA: Large Diffusion Vision-Language-Action Model with Unified Multi-Modal Instruction and Generation

​25) AI Generalisation Gap In Comorbid Sleep Disorder Staging

​보류/무시

논문 리뷰 2026-04-02

Daily Paper Review - 2026-04-02

수집 요약

Top Papers

1) ClawKeeper: Comprehensive Safety Protection for OpenClaw Agents Through Skills, Plugins, and Watchers

2) MiroEval: Benchmarking Multimodal Deep Research Agents in Process and Outcome

3) Reasoning Shift: How Context Silently Shortens LLM Reasoning

4) Terminal Agents Suffice for Enterprise Automation

5) Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification

6) Understand and Accelerate Memory Processing Pipeline for Disaggregated LLM Inference

7) ViGoR-Bench: How Far Are Visual Generative Models From Zero-Shot Visual Reasoners?

8) HippoCamp: Benchmarking Contextual Agents on Personal Computers

9) PerceptionComp: A Video Benchmark for Complex Perception-Centric Reasoning

10) QuitoBench: A High-Quality Open Time Series Forecasting Benchmark

11) Brevity Constraints Reverse Performance Hierarchies in Language Models

12) Paper Reconstruction Evaluation: Evaluating Presentation and Hallucination in AI-written Papers

13) A Survey of On-Policy Distillation for Large Language Models

14) Do Phone-Use Agents Respect Your Privacy?

15) MemRerank: Preference Memory for Personalized Product Reranking

16) Universal YOCO for Efficient Depth Scaling

17) Embarrassingly Simple Self-Distillation Improves Code Generation

18) Proactive Agent Research Environment: Simulating Active Users to Evaluate Proactive Assistants

19) Think, Act, Build: An Agentic Framework with Vision Language Models for Zero-Shot 3D Visual Grounding

20) Revision or Re-Solving? Decomposing Second-Pass Gains in Multi-LLM Pipelines

21) Benchmarking and Mechanistic Analysis of Vision-Language Models for Cross-Depiction Assembly Instruction Alignment

22) GaussianGPT: Towards Autoregressive 3D Gaussian Scene Generation

23) UniMixer: A Unified Architecture for Scaling Laws in Recommendation Systems

24) MMaDA-VLA: Large Diffusion Vision-Language-Action Model with Unified Multi-Modal Instruction and Generation

25) AI Generalisation Gap In Comorbid Sleep Disorder Staging

보류/무시