논문 리뷰 2026-04-06
Daily Paper Review - 2026-04-06
수집 요약
Top Papers
1) A Simple Baseline for Streaming Video Understanding
2) Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation
3) Self-Distilled RLVR
4) InCoder-32B-Thinking: Industrial Code World Model for Thinking
5) AgentSocialBench: Evaluating Privacy Risks in Human-Centered Agentic Social Networks
6) Token Warping Helps MLLMs Look from Nearby Viewpoints
7) Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?
8) Communicating about Space: Language-Mediated Spatial Integration Across Partial Views
9) CoME-VL: Scaling Complementary Multi-Encoder Vision-Language Learning
10) AgentHazard: A Benchmark for Evaluating Harmful Behavior in Computer-Use Agents
11) Do World Action Models Generalize Better than VLAs? A Robustness Study
보류/무시

논문 리뷰 2026-04-06

기준일: 2026-04-06
수집 건수(중복 제거): 11
발행 Top N: 11
원본 리포트: trend/reports/daily/2026-04-06.md
마지막 갱신: 2026-04-07 00:03:41

Daily Paper Review - 2026-04-06

수집 요약

총 수집(중복 제거 후): 11
발행 Top N: 11
LLM 요약 성공: 9
LLM 요약 폴백: 2

Top Papers

1) A Simple Baseline for Streaming Video Understanding

arXiv: https://arxiv.org/abs/2604.02317
HF: https://huggingface.co/papers/2604.02317
카테고리: -
테마: RAG, LLM
우선순위 점수: 2.267
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 복잡한 메모리 메커니즘 대신 최근 N개의 프레임만 슬라이딩 윈도우 방식으로 VLM에 입력하는 SimpleStream 베이스라인을 제안합니다. 실험 결과, 단 4개의 프레임만으로도 기존의 복잡한 스트리밍 비디오 모델들과 대등하거나 더 우수한 성능을 기록했습니다. 연구는 긴 컨텍스트가 항상 성능 향상을 보장하지 않으며, 오히려 실시간 인지 능력을 저하시킬 수 있다는 인지-메모리 트레이드오프를 지적합니다.
우리 팀 영향: 복잡한 비디오 처리 아키텍처를 설계하기 전에 단순한 슬라이딩 윈도우 방식의 성능을 기준점으로 삼아 효율적인 모델 구조를 재검토할 수 있습니다.
액션: 실험
액션 근거: 기존의 복잡한 메모리 구조 대비 단순한 윈도우 방식의 효율성과 성능 우위를 직접 검증하여 프로젝트의 연산 비용을 절감할 가능성이 높기 때문입니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

2) Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

arXiv: https://arxiv.org/abs/2604.02368
HF: https://huggingface.co/papers/2604.02368
카테고리: -
테마: LLM, Reasoning, Benchmark
우선순위 점수: 1.867
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: XpertBench는 금융, 의료, 법률 등 80개 전문 분야의 1,346개 과업을 포함하는 고난도 벤치마크입니다. 전문가가 작성한 상세 루브릭과 ShotJudge라는 새로운 평가 패러다임을 통해 LLM의 전문적 추론 능력을 정밀하게 측정합니다. 실험 결과 최신 모델들도 평균 55% 수준의 점수를 기록하며 전문가 수준의 지능과는 여전히 큰 격차가 있음을 보여줍니다.
우리 팀 영향: 전문 도메인별 상세 루브릭과 평가 방법론을 참고하여 자사 모델의 특정 산업군 특화 성능을 객관적으로 검증하는 지표로 활용할 수 있습니다.
액션: 실험
액션 근거: 기존 벤치마크의 한계를 극복한 전문가 수준의 평가 데이터셋이므로, 모델의 고도화된 추론 성능을 측정하기 위해 내부 테스트 도입이 필요합니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

3) Self-Distilled RLVR

arXiv: https://arxiv.org/abs/2604.03128
HF: https://huggingface.co/papers/2604.03128
카테고리: -
테마: LLM
우선순위 점수: 1.667
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: On-policy distillation (OPD) has become a popular training paradigm in the LLM community. This paradigm selects a larger model as the teacher to provide dense, fine-grained signals for each sampled trajectory, in contrast to reinforcement learning with verifiable rewards (RLVR),…
우리 팀 영향: 추가 검토 필요
액션: 보류
액션 근거: LLM 출력 파싱 실패로 수동 검토가 필요합니다.
요약 신뢰도(모델): 0.2
리뷰 메모:

4) InCoder-32B-Thinking: Industrial Code World Model for Thinking

arXiv: https://arxiv.org/abs/2604.03144
HF: https://huggingface.co/papers/2604.03144
카테고리: -
테마: Reasoning, Evaluation
우선순위 점수: 1.333
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: InCoder-32B-Thinking은 칩 설계 및 GPU 최적화 등 산업용 코드 개발을 위해 오류 기반 사고 사슬(ECoT)과 산업용 코드 월드 모델(ICWM)을 결합한 모델입니다. ECoT는 환경 피드백을 통해 오류 수정 과정을 모델링하며, ICWM은 하드웨어 동작의 인과 관계를 학습하여 실행 결과를 예측하고 검증합니다. 14개의 일반 벤치마크와 9개의 산업용 벤치마크에서 오픈소스 모델 중 최상위권의 성능을 입증했습니다.
우리 팀 영향: 하드웨어 제약 사항이 중요한 임베디드 및 GPU 최적화 분야에서 추론 과정을 포함한 고품질 코드 생성 데이터 구축 기법을 참고할 수 있습니다.
액션: 실험
액션 근거: 산업 현장의 복잡한 제약 조건을 반영한 사고 사슬 데이터 생성 및 검증 프레임워크가 실무 코드 생성 성능 향상에 유효함을 보여주기 때문입니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

arXiv: https://arxiv.org/abs/2604.01487
HF: https://huggingface.co/papers/2604.01487
카테고리: -
테마: Agent, LLM, Benchmark
우선순위 점수: 1.3
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: With the rise of personalized, persistent LLM agent frameworks such as OpenClaw, human-centered agentic social networks in which teams of collaborative AI agents serve individual users in a social network across multiple domains are becoming a reality. This setting creates novel…
우리 팀 영향: 추가 검토 필요
액션: 보류
액션 근거: LLM 출력 파싱 실패로 수동 검토가 필요합니다.
요약 신뢰도(모델): 0.2
리뷰 메모:

6) Token Warping Helps MLLMs Look from Nearby Viewpoints

arXiv: https://arxiv.org/abs/2604.02870
HF: https://huggingface.co/papers/2604.02870
카테고리: -
테마: Reasoning, Benchmark
우선순위 점수: 1.233
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 본 논문은 MLLM이 시점 변화에 취약하다는 점을 해결하기 위해 픽셀 대신 이미지 토큰을 워핑하는 ‘Token Warping’ 기법을 제안합니다. 연구진은 타겟 뷰의 그리드에서 소스 토큰을 검색하는 역방향 토큰 워핑이 기하학적 왜곡을 줄이고 시각적 추론의 안정성을 높임을 입증했습니다. 자체 구축한 ViewBench 벤치마크에서 기존 픽셀 기반 워핑 및 생성형 방식보다 우수한 성능을 기록했습니다.
우리 팀 영향: 이미지 토큰 단위의 기하학적 변환을 통해 추가 학습 없이도 모델의 다각도 시각 추론 능력을 개선할 수 있는 가능성을 제시합니다.
액션: 실험
액션 근거: 픽셀 워핑 대비 토큰 워핑의 효율성과 의미론적 일관성 유지 능력을 실제 서비스 환경의 시점 변화 대응에 적용 가능한지 검증이 필요합니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

7) Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?

arXiv: https://arxiv.org/abs/2604.03016
HF: https://huggingface.co/papers/2604.03016
카테고리: -
테마: Agent, Benchmark, Evaluation
우선순위 점수: 1.2
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: Agentic-MME는 MLLM이 시각 도구와 웹 검색을 활용하여 문제를 해결하는 능력을 평가하기 위한 새로운 프로세스 검증 벤치마크입니다. 6개 도메인에 걸친 418개의 실제 과제를 포함하며, 최종 결과뿐만 아니라 중간 단계의 효율성과 정확성을 측정하는 2,000개 이상의 체크포인트를 제공합니다. 실험 결과 Gemini3-pro가 가장 우수한 성능을 보였으나, 고난도 과제에서는 정확도가 급격히 하락하여 실제 환경에서의 한계를 드러냈습니다.
우리 팀 영향: 멀티모달 에이전트의 도구 활용 능력과 추론 과정을 정밀하게 검증할 수 있는 평가 지표 및 데이터셋을 확보할 수 있습니다.
액션: 실험
액션 근거: 기존의 결과 중심 평가에서 벗어나 단계별 프로세스 검증과 효율성 측정이 가능하므로 현재 개발 중인 에이전트 모델의 성능 고도화에 유용합니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

8) Communicating about Space: Language-Mediated Spatial Integration Across Partial Views

arXiv: https://arxiv.org/abs/2603.27183
HF: https://huggingface.co/papers/2603.27183
카테고리: -
테마: Reasoning, Benchmark
우선순위 점수: 0.767
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 본 논문은 서로 다른 시점을 가진 두 MLLM 에이전트가 자연어 대화를 통해 공유된 공간 모델을 구축하는 능력을 평가하는 COSMIC 벤치마크를 제안합니다. 실험 결과, 최신 모델들도 공유 앵커 객체 식별에는 능숙하나 전역적으로 일관된 지도를 생성하는 데는 무작위 수준의 성능을 보이며 한계를 드러냈습니다. 인간은 95%의 정확도를 기록한 반면, 가장 우수한 Gemini-3-Pro-Thinking 모델도 72%에 그쳐 모델의 공간적 추론 능력이 아직 부족함을 확인했습니다.
우리 팀 영향: 멀티모달 모델의 협업 및 공간 추론 능력을 정밀하게 측정할 수 있는 벤치마크를 확보하여 향후 에이전트 연구의 평가 지표로 활용할 수 있습니다.
액션: 실험
액션 근거: 최신 MLLM의 공간적 추론 한계를 명확히 정의하고 있어, 현재 개발 중인 모델의 다중 시점 통합 능력을 검증하기 위한 테스트베드로 적합합니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

9) CoME-VL: Scaling Complementary Multi-Encoder Vision-Language Learning

arXiv: https://arxiv.org/abs/2604.03231
HF: https://huggingface.co/papers/2604.03231
카테고리: -
테마: RAG, LLM
우선순위 점수: 0.633
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: CoME-VL은 대조 학습 기반의 CLIP 인코더와 자기지도 학습 기반의 DINO 인코더를 결합하여 시각적 표현력을 강화한 프레임워크입니다. 엔트로피 가이드 다층 집계와 RoPE 강화 교차 주의 집중 메커니즘을 통해 서로 다른 성격의 시각 토큰을 효율적으로 융합합니다. 실험 결과 시각적 이해와 그라운딩 작업에서 기존 단일 인코더 모델 대비 유의미한 성능 향상을 보였습니다.
우리 팀 영향: 상호 보완적인 다중 인코더 융합 기술을 통해 멀티모달 모델의 시각적 이해도와 객체 인식 정밀도를 개선할 수 있습니다.
액션: 실험
액션 근거: 기존 VLM 파이프라인의 큰 변경 없이 이종 인코더의 장점을 결합하여 성능을 높이는 방식이 실용적이기 때문입니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

10) AgentHazard: A Benchmark for Evaluating Harmful Behavior in Computer-Use Agents

arXiv: https://arxiv.org/abs/2604.02947
HF: https://huggingface.co/papers/2604.02947
카테고리: -
테마: Agent, Safety, Benchmark
우선순위 점수: 0.067
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: AgentHazard는 컴퓨터 사용 에이전트의 유해한 행동을 평가하기 위한 벤치마크로, 2,653개의 인스턴스를 포함합니다. 개별적으로는 정당해 보이지만 전체적으로는 유해한 결과를 초래하는 단계적 공격 전략을 통해 에이전트의 안전성을 측정합니다. 실험 결과 Qwen3-Coder 기반의 Claude Code가 73.63%의 공격 성공률을 보이는 등 현재 시스템의 취약성이 확인되었습니다.
우리 팀 영향: 자율 에이전트 개발 시 모델 자체의 정렬뿐만 아니라 실행 환경에서의 누적된 맥락에 따른 보안 위협을 방어하기 위한 추가적인 안전 장치가 필요함을 시사합니다.
액션: 실험
액션 근거: 에이전트가 도구 사용 및 단계별 실행 과정에서 발생시킬 수 있는 잠재적 위험을 사전에 탐지하고 방어하는 벤치마크로서 활용 가치가 높습니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

11) Do World Action Models Generalize Better than VLAs? A Robustness Study

arXiv: https://arxiv.org/abs/2603.22078
HF: https://huggingface.co/papers/2603.22078
카테고리: -
테마: General
우선순위 점수: 0.033
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 본 논문은 비디오 데이터로 학습된 월드 액션 모델(WAM)과 기존 시각-언어-액션(VLA) 모델의 로봇 작업 일반화 성능을 비교 분석했습니다. 실험 결과 WAM은 웹 규모의 비디오 사전 학습을 통해 얻은 시공간적 사전 지식을 바탕으로 다양한 시각 및 언어적 섭동 상황에서 높은 강건성을 보였습니다. 반면 VLA는 특정 작업에서 유사한 성능을 내기 위해 방대한 로봇 데이터셋과 복잡한 학습 목표가 필요함을 확인했습니다.
우리 팀 영향: 비디오 기반 월드 모델의 사전 학습 지식이 로봇 제어의 일반화 성능 향상에 핵심적인 역할을 할 수 있음을 시사합니다.
액션: 실험
액션 근거: WAM이 VLA 대비 적은 로봇 전용 데이터로도 높은 강건성을 보인다는 점을 확인하기 위해 자체 벤치마크 적용이 필요합니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

보류/무시

사유와 재검토일을 기록하세요.

논문 리뷰 2026-04-07 논문 리뷰 2026-04-05

00. 시작하기

01. AI IDE

02. IDE 확장/플러그인

03. CLI/멀티 플랫폼

04. 에이전트 하네스

05. AI 웹 빌더

06. 워크플로우 플랫폼

08. 일일 리뷰 리포트

07. 논문 트렌드

논문 리뷰 2026-04-06

논문 리뷰 2026-04-06

Daily Paper Review - 2026-04-06

수집 요약

Top Papers

1) A Simple Baseline for Streaming Video Understanding

2) Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

3) Self-Distilled RLVR

4) InCoder-32B-Thinking: Industrial Code World Model for Thinking

6) Token Warping Helps MLLMs Look from Nearby Viewpoints

7) Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?

8) Communicating about Space: Language-Mediated Spatial Integration Across Partial Views

9) CoME-VL: Scaling Complementary Multi-Encoder Vision-Language Learning

10) AgentHazard: A Benchmark for Evaluating Harmful Behavior in Computer-Use Agents

11) Do World Action Models Generalize Better than VLAs? A Robustness Study

보류/무시

00. 시작하기

01. AI IDE

02. IDE 확장/플러그인

03. CLI/멀티 플랫폼

04. 에이전트 하네스

05. AI 웹 빌더

06. 워크플로우 플랫폼

08. 일일 리뷰 리포트

07. 논문 트렌드

​논문 리뷰 2026-04-06

​Daily Paper Review - 2026-04-06

​수집 요약

​Top Papers

​1) A Simple Baseline for Streaming Video Understanding

​2) Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

​3) Self-Distilled RLVR

​4) InCoder-32B-Thinking: Industrial Code World Model for Thinking

​5) AgentSocialBench: Evaluating Privacy Risks in Human-Centered Agentic Social Networks

​6) Token Warping Helps MLLMs Look from Nearby Viewpoints

​7) Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?

​8) Communicating about Space: Language-Mediated Spatial Integration Across Partial Views

​9) CoME-VL: Scaling Complementary Multi-Encoder Vision-Language Learning

​10) AgentHazard: A Benchmark for Evaluating Harmful Behavior in Computer-Use Agents

​11) Do World Action Models Generalize Better than VLAs? A Robustness Study

​보류/무시

논문 리뷰 2026-04-06

Daily Paper Review - 2026-04-06

수집 요약

Top Papers

1) A Simple Baseline for Streaming Video Understanding

2) Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

3) Self-Distilled RLVR

4) InCoder-32B-Thinking: Industrial Code World Model for Thinking

5) AgentSocialBench: Evaluating Privacy Risks in Human-Centered Agentic Social Networks

6) Token Warping Helps MLLMs Look from Nearby Viewpoints

7) Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?

8) Communicating about Space: Language-Mediated Spatial Integration Across Partial Views

9) CoME-VL: Scaling Complementary Multi-Encoder Vision-Language Learning

10) AgentHazard: A Benchmark for Evaluating Harmful Behavior in Computer-Use Agents

11) Do World Action Models Generalize Better than VLAs? A Robustness Study

보류/무시