논문 리뷰 2026-04-03

기준일: 2026-04-03
수집 건수(중복 제거): 37
발행 Top N: 37
원본 리포트: trend/reports/daily/2026-04-03.md
마지막 갱신: 2026-04-04 00:06:37

Daily Paper Review - 2026-04-03

수집 요약

총 수집(중복 제거 후): 37
발행 Top N: 37
LLM 요약 성공: 35
LLM 요약 폴백: 2

Top Papers

1) DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language Models

arXiv: https://arxiv.org/abs/2603.26164
HF: https://huggingface.co/papers/2603.26164
카테고리: -
테마: LLM
우선순위 점수: 4.6
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: DataFlex는 LLM 학습 시 데이터 선택, 혼합 비율 조정, 가중치 부여를 통합적으로 관리하는 LLaMA-Factory 기반의 프레임워크입니다. DeepSpeed ZeRO-3와 호환되며, 기존의 파편화된 데이터 중심 학습 기법들을 단일 인터페이스로 통합하여 재현성과 효율성을 높였습니다. 실험 결과, 정적 학습 대비 MMLU 성능 향상과 더불어 기존 구현체보다 빠른 실행 속도를 입증했습니다.
우리 팀 영향: 데이터 최적화 기법들을 기존 학습 워크플로우에 즉시 적용하여 모델 성능을 효율적으로 개선할 수 있는 인프라를 확보할 수 있습니다.
액션: 실험
액션 근거: LLaMA-Factory 기반의 높은 호환성과 다양한 데이터 최적화 알고리즘을 통합 제공하므로 실제 학습 파이프라인에 적용하여 성능 향상 여부를 검증할 가치가 큽니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

2) The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook

arXiv: https://arxiv.org/abs/2604.02029
HF: https://huggingface.co/papers/2604.02029
카테고리: -
테마: Reasoning
우선순위 점수: 3.6
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 언어 모델의 잠재 공간(Latent Space)을 단순한 중간 표현이 아닌 차세대 지능의 핵심 계산 패러다임으로 정의하고 분석한 서베이 논문입니다. 기존 토큰 기반 명시적 공간의 한계인 언어적 중복성과 이산화 병목 현상을 해결하기 위한 잠재 공간의 진화 과정과 메커니즘을 다룹니다. 추론, 계획, 기억 등 다양한 능력 확장을 위한 잠재 공간 활용 방안과 향후 연구 방향을 제시합니다.
우리 팀 영향: 언어 모델의 내부 연산 과정을 토큰 단위가 아닌 연속적인 잠재 공간 관점에서 재해석하여 모델 최적화 및 성능 개선 전략을 수립하는 데 참고할 수 있습니다.
액션: 도입 검토
액션 근거: 잠재 공간을 활용한 추론 및 연산 효율화가 최신 연구 트렌드이므로 팀 내 아키텍처 설계 시 이론적 기반으로 활용 가치가 높습니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

3) SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization

arXiv: https://arxiv.org/abs/2604.02268
HF: https://huggingface.co/papers/2604.02268
카테고리: -
테마: RAG, Agent, LLM
우선순위 점수: 3.433
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: SKILL0는 추론 시 외부 스킬을 검색하는 대신 모델 파라미터에 직접 내재화하는 인컨텍스트 강화학습 프레임워크입니다. 훈련 과정에서 스킬 컨텍스트를 점진적으로 제거하는 동적 커리큘럼을 통해 모델이 외부 도움 없이도 제로샷 자율 행동을 수행하도록 유도합니다. 실험 결과 ALFWorld와 Search-QA 벤치마크에서 기존 RL 베이스라인 대비 성능 향상과 토큰 효율성을 동시에 입증했습니다.
우리 팀 영향: 에이전트의 외부 스킬 의존도를 낮추고 추론 비용을 절감하면서도 높은 성능을 유지하는 경량화된 자율 에이전트 개발에 기여할 수 있습니다.
액션: 실험
액션 근거: 검색 노이즈와 토큰 오버헤드 문제를 해결하는 스킬 내재화 방식이 실제 에이전트 서비스의 효율성 개선에 유효한지 검증이 필요합니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

4) Generative World Renderer

arXiv: https://arxiv.org/abs/2604.02329
HF: https://huggingface.co/papers/2604.02329
카테고리: -
테마: Evaluation
우선순위 점수: 2.767
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: AAA 게임 엔진에서 추출한 400만 프레임 규모의 고품질 RGB 및 G-버퍼 데이터셋을 구축하여 생성형 렌더링의 도메인 격차 문제를 해결하고자 합니다. 이 데이터셋은 역렌더링을 통한 기하학 및 재질 분해 성능을 높이며, G-버퍼 가이드 기반의 고충실도 비디오 생성을 지원합니다. 또한 정답 데이터가 없는 실제 환경의 역렌더링 성능 측정을 위해 VLM 기반의 새로운 평가 프로토콜을 제안합니다.
우리 팀 영향: 고품질 G-버퍼 데이터셋과 VLM 기반 평가 방법론은 우리 팀의 비디오 생성 모델 제어 및 품질 측정 연구에 직접적으로 활용될 수 있습니다.
액션: 실험
액션 근거: AAA 게임 기반의 대규모 멀티모달 데이터셋이 실제 환경에서의 일반화 성능과 제어 가능성을 얼마나 향상시키는지 검증이 필요합니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

5) UniDriveVLA: Unifying Understanding, Perception, and Action Planning for Autonomous Driving

arXiv: https://arxiv.org/abs/2604.02190
HF: https://huggingface.co/papers/2604.02190
카테고리: -
테마: Reasoning, Evaluation
우선순위 점수: 1.6
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: UniDriveVLA는 자율주행에서 공간 인지 능력과 시맨틱 추론 능력 간의 충돌을 해결하기 위해 Mixture-of-Transformers 구조를 제안합니다. 주행 이해, 장면 인지, 행동 계획을 위한 세 가지 전문가 모델을 마스킹된 결합 주의 집중 메커니즘으로 통합하였습니다. nuScenes와 Bench2Drive 벤치마크에서 우수한 성능을 보이며 3D 탐지, 매핑, 동작 예측 등 다양한 과업을 동시에 수행합니다.
우리 팀 영향: 공간 인지와 추론 파라미터를 분리하여 최적화하는 구조는 복합적인 자율주행 모델 설계 시 효율적인 아키텍처 가이드라인이 될 수 있습니다.
액션: 실험
액션 근거: 다양한 자율주행 태스크를 통합하면서도 성능 저하를 막는 전문가 분리 구조의 실제 효용성을 검증할 가치가 있습니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

6) GPA: Learning GUI Process Automation from Demonstrations

arXiv: https://arxiv.org/abs/2604.01676
HF: https://huggingface.co/papers/2604.01676
카테고리: -
테마: Agent, Security
우선순위 점수: 1.4
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: GPA는 단일 시연만으로 빠르고 안정적인 GUI 프로세스 자동화를 구현하는 시각 기반 RPA 프레임워크입니다. 순차적 몬테카를로 기반 위치 추적과 준비 상태 보정 기능을 통해 기존 RPA의 취약성과 VLM 에이전트의 비결정론적 위험을 해결했습니다. 로컬 실행을 통해 보안성을 확보하며, 다른 에이전트의 실행 도구로도 활용 가능한 확장성을 제공합니다.
우리 팀 영향: GUI 기반 업무 자동화 시 VLM의 높은 비용과 느린 속도 문제를 해결하고 로컬 환경에서의 보안성을 강화할 수 있습니다.
액션: 실험
액션 근거: Gemini 1.5 Pro 대비 10배 빠른 속도와 높은 성공률을 보였다는 실험 결과에 근거하여 실제 워크플로우 적용 가능성을 검증할 가치가 있습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

7) VideoZeroBench: Probing the Limits of Video MLLMs with Spatio-Temporal Evidence Verification

arXiv: https://arxiv.org/abs/2604.01569
HF: https://huggingface.co/papers/2604.01569
카테고리: -
테마: Reasoning, Benchmark, Evaluation
우선순위 점수: 1.367
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: VideoZeroBench는 비디오 MLLM의 시공간적 근거 확인 능력을 평가하기 위해 500개의 수동 주석 질문과 13개 도메인을 포함한 벤치마크입니다. 연구 결과, Gemini-3-Pro를 포함한 최신 모델들도 답변의 정확성과 시공간적 로컬라이제이션을 동시에 요구할 경우 정확도가 1% 미만으로 급감함을 확인했습니다. 이는 현재 모델들이 표면적인 답변 생성에는 능하나 실제 증거 기반의 정밀한 추론 능력은 부족함을 시사합니다.
우리 팀 영향: 비디오 이해 모델의 성능 평가 시 단순 답변 일치 여부를 넘어 시공간적 근거의 정확성을 검증하는 엄격한 평가 체계 도입이 필요합니다.
액션: 실험
액션 근거: 기존 벤치마크의 한계를 극복하고 모델의 실제 시공간적 추론 능력을 정밀하게 측정할 수 있는 새로운 평가 프로토콜이기 때문입니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

8) AutoMIA: Improved Baselines for Membership Inference Attack via Agentic Self-Exploration

arXiv: https://arxiv.org/abs/2604.01014
HF: https://huggingface.co/papers/2604.01014
카테고리: -
테마: Agent, Reasoning, Evaluation
우선순위 점수: 1.367
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: AutoMIA는 수동으로 설계된 기존의 정적 멤버십 추론 공격(MIA) 방식에서 벗어나 에이전트 기반의 자동화된 전략 탐색 프레임워크를 제안합니다. 이 시스템은 고수준 시나리오 명세가 주어지면 로짓 수준의 공격 전략을 스스로 생성하고 폐쇄 루프 피드백을 통해 이를 점진적으로 정교화합니다. 실험 결과, 수동 피처 엔지니어링 없이도 다양한 대형 모델에서 기존 SOTA 방식과 대등하거나 더 우수한 성능을 보였습니다.
우리 팀 영향: 데이터 유출 진단 프로세스를 자동화하여 다양한 모델 환경에 최적화된 보안 취약점 점검 효율을 높일 수 있습니다.
액션: 실험
액션 근거: 에이전트 기반의 자동화된 공격 전략 탐색 방식이 기존 수동 방식보다 범용성과 성능 면에서 우수함을 입증했기 때문입니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

9) Memory-Augmented Vision-Language Agents for Persistent and Semantically Consistent Object Captioning

arXiv: https://arxiv.org/abs/2603.24257
HF: https://huggingface.co/papers/2603.24257
카테고리: -
테마: Agent, Evaluation
우선순위 점수: 1.267
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 시점 변화에 따른 객체 캡셔닝의 불일치 문제를 해결하기 위해 객체 수준의 에피소드 메모리를 활용하는 통합 Vision-Language 에이전트를 제안합니다. 단일 자동 회귀 프레임워크 내에서 데이터 연관, 캡셔닝, 탐색 정책을 동시에 처리하여 객체 정체성과 의미론적 일관성을 유지합니다. 자체 지도 학습을 위해 구축된 데이터셋을 통해 기존 모델 대비 캡셔닝 점수와 자기 유사성 지표에서 유의미한 성능 향상을 입증했습니다.
우리 팀 영향: 객체 중심의 메모리 구조를 활용하여 일관성 있는 시맨틱 맵을 구축하는 기술은 우리 팀의 로봇 에이전트 환경 이해 성능을 높이는 데 기여할 수 있습니다.
액션: 실험
액션 근거: 객체 수준 토큰화와 메모리 증강 방식이 실제 다중 시점 환경에서 캡션 일관성을 얼마나 개선하는지 내부 벤치마크로 검증할 가치가 있습니다.
요약 신뢰도(모델): 0.92
리뷰 메모:

10) Ask or Assume? Uncertainty-Aware Clarification-Seeking in Coding Agents

arXiv: https://arxiv.org/abs/2603.26233
HF: https://huggingface.co/papers/2603.26233
카테고리: -
테마: Agent, LLM
우선순위 점수: 1.267
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 소프트웨어 엔지니어링 에이전트가 불명확한 지시를 받았을 때 스스로 질문하여 정보를 보충하는 능력을 평가하고 개선하는 연구입니다. 불확실성 감지와 코드 실행을 분리한 멀티 에이전트 구조를 통해 SWE-bench Verified에서 기존 단일 에이전트 대비 약 8.2%p 향상된 성능을 보였습니다. 이 시스템은 작업의 복잡도에 따라 질문 빈도를 조절하는 보정된 불확실성 측정 능력을 입증했습니다.
우리 팀 영향: 모호한 요구사항이 빈번한 실제 개발 환경에서 에이전트의 자율적 판단과 협업 능력을 강화하는 프레임워크로 활용될 수 있습니다.
액션: 실험
액션 근거: 멀티 에이전트 구조를 통한 불확실성 제어가 실제 작업 성공률을 유의미하게 높였으므로 내부 에이전트 워크플로우에 적용 가능성을 검토할 가치가 있습니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

arXiv: https://arxiv.org/abs/2604.02097
HF: https://huggingface.co/papers/2604.02097
카테고리: -
테마: Reasoning, Benchmark
우선순위 점수: 1.233
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: LatentUM은 시각적 이해와 생성을 위해 공유된 시맨틱 잠재 공간(Latent Space)을 활용하여 픽셀 디코딩 없이 교차 모달 추론을 수행하는 통합 모델입니다. 이 구조는 계산 효율성을 높이고 코덱 편향을 줄여 시각적 공간 계획 및 자기 반성 기반의 생성 성능을 강화합니다. 이를 통해 미래 시각 상태 예측과 같은 월드 모델링 작업에서 뛰어난 성능을 보여줍니다.
우리 팀 영향: 시각적 이해와 생성을 단일 잠재 공간에서 통합함으로써 픽셀 단위 연산 없이도 효율적인 멀티모달 추론 시스템을 구축하는 데 기여할 수 있습니다.
액션: 실험
액션 근거: 공유 잠재 공간을 통한 효율적인 교차 모달 정렬 방식이 기존 픽셀 기반 방식보다 우수한 성능을 보이는지 검증이 필요합니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

12) Apriel-Reasoner: RL Post-Training for General-Purpose and Efficient Reasoning

arXiv: https://arxiv.org/abs/2604.02007
HF: https://huggingface.co/papers/2604.02007
카테고리: -
테마: LLM, Reasoning
우선순위 점수: 1.233
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: Apriel-Reasoner는 15B 규모의 모델에 수학, 코드, 논리 등 5개 도메인의 공개 데이터를 활용하여 강화학습(RLVR)을 적용한 모델입니다. 도메인별 복잡도 차이를 해결하기 위해 적응형 도메인 샘플링과 난이도 기반 길이 페널티 기법을 도입하여 효율성을 높였습니다. 그 결과 기존 모델 대비 추론 성능은 향상시키면서도 추론 과정의 길이를 30-50% 단축하여 토큰 비용을 절감했습니다.
우리 팀 영향: 추론 성능을 유지하면서도 토큰 사용량을 획기적으로 줄이는 난이도 기반 길이 조절 기법은 효율적인 서비스 배포에 직접적인 참고가 될 수 있습니다.
액션: 실험
액션 근거: 공개된 데이터셋과 재현 가능한 RL 레시피를 통해 추론 효율성을 개선한 사례이므로 내부 모델의 효율화 실험에 적용 가능성이 높습니다.
요약 신뢰도(모델): 0.92
리뷰 메모:

13) Brainstacks: Cross-Domain Cognitive Capabilities via Frozen MoE-LoRA Stacks for Continual LLM Learning

arXiv: https://arxiv.org/abs/2604.01152
HF: https://huggingface.co/papers/2604.01152
카테고리: -
테마: LLM, Reasoning, Fine-Tuning
우선순위 점수: 1.2
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: Brainstacks는 도메인별 전문성을 동결된 어댑터 스택으로 패키징하여 지속적인 학습을 가능하게 하는 모듈형 아키텍처입니다. MoE-LoRA와 잔차 부스팅, 널 공간 투영 기술을 결합하여 이전 지식의 망각 없이 새로운 도메인을 학습하며, 메타 라우터를 통해 여러 스택을 조합합니다. 실험 결과, 도메인 스택이 단순 지식이 아닌 지시 이행이나 논리적 추론과 같은 전이 가능한 인지 프리미티브를 인코딩함을 확인했습니다.
우리 팀 영향: 지속적인 도메인 확장이 필요한 프로젝트에서 기존 성능 저하 없이 새로운 추론 능력을 효율적으로 추가하는 방법론으로 활용될 수 있습니다.
액션: 실험
액션 근거: MoE-LoRA와 널 공간 투영을 통한 제로 망각 성능 및 도메인 간 인지 능력 전이 효과를 내부 벤치마크에서 검증할 가치가 있습니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

14) Omni-SimpleMem: Autoresearch-Guided Discovery of Lifelong Multimodal Agent Memory

arXiv: https://arxiv.org/abs/2604.01007
HF: https://huggingface.co/papers/2604.01007
카테고리: -
테마: RAG, Agent
우선순위 점수: 1.1
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 자율 연구 파이프라인을 통해 멀티모달 에이전트를 위한 평생 메모리 프레임워크인 Omni-SimpleMem을 개발했습니다. 수동 개입 없이 50회 이상의 실험을 거쳐 데이터 파이프라인 버그 수정, 아키텍처 변경, 프롬프트 엔지니어링을 수행하여 성능을 대폭 향상시켰습니다. LoCoMo와 Mem-Gallery 벤치마크에서 초기 설정 대비 각각 411%, 214%의 F1 스코어 향상을 기록하며 SOTA를 달성했습니다.
우리 팀 영향: 자율 연구 파이프라인을 활용한 에이전트 메모리 최적화 방식은 향후 우리 팀의 RAG 및 에이전트 시스템 고도화 프로세스 자동화에 기여할 수 있습니다.
액션: 실험
액션 근거: 단순 하이퍼파라미터 튜닝을 넘어 아키텍처와 데이터 파이프라인을 자율적으로 개선하는 방식의 실효성을 검증할 가치가 큽니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

15) VOID: Video Object and Interaction Deletion

arXiv: https://arxiv.org/abs/2604.02296
HF: https://huggingface.co/papers/2604.02296
카테고리: -
테마: Reasoning
우선순위 점수: 0.933
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: VOID는 비디오 내 객체 제거 시 단순 외형 복원을 넘어 물리적으로 타당한 상호작용 수정을 수행하는 프레임워크입니다. 비전-언어 모델을 활용해 제거된 객체로 인해 영향을 받는 영역을 식별하고, 비디오 확산 모델을 통해 물리적 일관성이 유지되는 결과를 생성합니다. 이를 위해 객체 제거가 하위 물리적 상호작용의 변화를 유도하는 새로운 카운터팩추얼 데이터셋을 구축하여 학습에 활용했습니다.
우리 팀 영향: 물리적 인과관계를 고려한 비디오 편집 기술은 단순한 시각적 보정을 넘어 고차원적인 장면 이해 및 시뮬레이션 능력을 강화하는 데 기여할 수 있습니다.
액션: 실험
액션 근거: 기존 객체 제거 모델이 해결하지 못한 물리적 상호작용 수정 문제를 다루고 있어, 비디오 생성 및 편집 모델의 물리적 정합성 향상을 위한 실험적 가치가 높습니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

16) EgoSim: Egocentric World Simulator for Embodied Interaction Generation

arXiv: https://arxiv.org/abs/2604.01001
HF: https://huggingface.co/papers/2604.01001
카테고리: -
테마: General
우선순위 점수: 0.933
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: EgoSim은 공간적 일관성을 유지하면서 상호작용에 따라 3D 장면 상태를 지속적으로 업데이트하는 폐루프 1인칭 시점 월드 시뮬레이터입니다. 야생의 단안 비디오에서 정적 포인트 클라우드와 행동 궤적을 추출하는 확장 가능한 파이프라인을 통해 데이터 부족 문제를 해결했습니다. 실험 결과 시각적 품질과 공간적 일관성 측면에서 기존 방식보다 우수한 성능을 보였으며 로봇 조작으로의 전이 가능성도 입증했습니다.
우리 팀 영향: 1인칭 시점의 3D 장면 업데이트 기술을 통해 복잡한 상호작용이 포함된 로봇 학습용 가상 환경 구축 효율을 높일 수 있습니다.
액션: 실험
액션 근거: 기존 시뮬레이터의 한계인 구조적 드리프트와 정적 장면 제약을 극복하여 연속적인 상호작용 데이터 생성이 가능하기 때문입니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

17) Investigating Autonomous Agent Contributions in the Wild: Activity Patterns and Code Change over Time

arXiv: https://arxiv.org/abs/2604.00917
HF: https://huggingface.co/papers/2604.00917
카테고리: -
테마: Agent
우선순위 점수: 0.867
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 본 연구는 약 11만 개의 오픈소스 풀 리퀘스트 데이터를 분석하여 OpenAI Codex, Claude Code, GitHub Copilot 등 주요 코딩 에이전트의 기여 패턴을 조사했습니다. 에이전트의 활동량은 증가 추세에 있으나, 인간이 작성한 코드에 비해 수정 및 삭제되는 코드 이탈(churn) 비율이 더 높게 나타났습니다. 에이전트의 기여가 병합 빈도, 파일 유형, 개발자 상호작용 측면에서 인간과 어떻게 다른지 정량적으로 비교 분석했습니다.
우리 팀 영향: 에이전트 생성 코드의 유지보수 비용이 인간 작성 코드보다 높을 수 있음을 시사하므로, 도입 시 장기적인 코드 품질 관리 전략이 필요합니다.
액션: 실험
액션 근거: 에이전트별 기여 특성과 코드 생존율 데이터를 바탕으로 사내 개발 프로세스에 최적화된 에이전트 활용 가이드를 수립할 가치가 있습니다.
요약 신뢰도(모델): 0.92
리뷰 메모:

18) AIBench: Evaluating Visual-Logical Consistency in Academic Illustration Generation

arXiv: https://arxiv.org/abs/2603.28068
HF: https://huggingface.co/papers/2603.28068
카테고리: -
테마: Reasoning, Benchmark
우선순위 점수: 0.8
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: AIBench는 학술 논문 삽화의 시각적-논리적 일관성을 평가하기 위해 제안된 최초의 벤치마크입니다. VQA 방식을 도입하여 논문 텍스트와 생성된 삽화 간의 논리적 정렬을 4단계 질문으로 정밀하게 측정하며, 심미성 평가에는 VLM을 활용합니다. 실험 결과, 모델 간 성능 격차가 일반적인 작업보다 크며 논리성과 심미성을 동시에 최적화하는 것이 어렵다는 점을 확인했습니다.
우리 팀 영향: 학술적 도식 생성 모델의 성능을 정량적으로 평가할 수 있는 체계적인 기준을 제공하여 관련 연구의 신뢰성을 높일 수 있습니다.
액션: 실험
액션 근거: 복잡한 논리 구조를 시각화하는 모델의 추론 능력을 검증하고 개선하기 위한 벤치마크로서 활용 가치가 높기 때문입니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

19) NearID: Identity Representation Learning via Near-identity Distractors

arXiv: https://arxiv.org/abs/2604.01973
HF: https://huggingface.co/papers/2604.01973
카테고리: -
테마: Benchmark, Evaluation
우선순위 점수: 0.7
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 기존 비전 인코더가 배경과 객체 정체성을 혼동하는 문제를 해결하기 위해, 동일 배경 내 유사 객체를 구분하는 NearID 데이터셋과 프레임워크를 제안합니다. 1.9만 개의 정체성과 31.6만 개의 대조군을 통해 정체성만을 분리하는 학습 방식을 도입했습니다. 이를 통해 기존 모델의 낮은 식별 성능을 99.2%까지 끌어올리고 인간의 판단과 일치하는 벤치마크 성능을 달성했습니다.
우리 팀 영향: 개인화된 이미지 생성 및 편집 작업에서 배경 노이즈를 배제하고 객체의 고유 정체성만을 정확하게 추출하여 모델의 정밀도를 높일 수 있습니다.
액션: 실험
액션 근거: 기존 인코더의 정체성 오인 문제를 해결하는 구체적인 데이터셋과 학습 방법론이 제시되어 있어 실제 서비스 적용 가능성을 검증할 가치가 높습니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

20) MDPBench: A Benchmark for Multilingual Document Parsing in Real-World Scenarios

arXiv: https://arxiv.org/abs/2603.28130
HF: https://huggingface.co/papers/2603.28130
카테고리: -
테마: Benchmark, Evaluation
우선순위 점수: 0.7
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: MDPBench는 17개 언어와 다양한 촬영 환경을 포함한 최초의 다국어 문서 파싱 벤치마크로, 3,400개의 고품질 주석 데이터를 제공합니다. 평가 결과 Gemini-1.5-Pro와 같은 폐쇄형 모델은 비교적 견고했으나, 오픈소스 모델은 비라틴 문자 및 사진 촬영 환경에서 성능이 급격히 저하됨을 확인했습니다. 데이터 누출 방지를 위해 공개 및 비공개 평가 세트를 분리하여 공정한 비교를 보장합니다.
우리 팀 영향: 다양한 언어와 실제 촬영 환경에서의 문서 파싱 성능을 객관적으로 검증하고 오픈소스 모델의 한계를 파악하는 데 활용할 수 있습니다.
액션: 실험
액션 근거: 실제 환경의 다국어 OCR 및 문서 파싱 성능 측정을 위한 신뢰도 높은 벤치마크 데이터셋이므로 내부 모델 성능 검증에 유용합니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

21) Executing as You Generate: Hiding Execution Latency in LLM Code Generation

arXiv: https://arxiv.org/abs/2604.00491
HF: https://huggingface.co/papers/2604.00491
카테고리: -
테마: LLM
우선순위 점수: 0.667
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: LLM 코드 생성 시 전체 코드가 완성될 때까지 기다리지 않고 생성과 동시에 실행을 병렬로 처리하는 Eager 프레임워크를 제안합니다. AST 기반 청킹과 동적 배칭을 통해 생성, 탐지, 실행의 3단계 파이프라인을 구축하여 실행 지연 시간을 숨깁니다. 실험 결과 비중첩 실행 지연 시간을 최대 99.9%, 전체 지연 시간을 최대 55%까지 단축했습니다.
우리 팀 영향: 코드 생성 에이전트 서비스의 응답 속도를 획기적으로 개선하여 사용자 경험을 향상시킬 수 있습니다.
액션: 실험
액션 근거: 기존 직렬 방식의 비효율성을 개선하는 구체적인 구현체와 높은 성능 향상 수치가 제시되어 있어 기술적 검증 가치가 높습니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

22) ActionParty: Multi-Subject Action Binding in Generative Video Games

arXiv: https://arxiv.org/abs/2604.02330
HF: https://huggingface.co/papers/2604.02330
카테고리: -
테마: Agent, Benchmark
우선순위 점수: 0.633
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: Recent advances in video diffusion have enabled the development of “world models” capable of simulating interactive environments. However, these models are largely restricted to single-agent settings, failing to control multiple agents simultaneously in a scene.
우리 팀 영향: 추가 검토 필요
액션: 보류
액션 근거: LLM 출력 파싱 실패로 수동 검토가 필요합니다.
요약 신뢰도(모델): 0.2
리뷰 메모:

23) Automatic Image-Level Morphological Trait Annotation for Organismal Images

arXiv: https://arxiv.org/abs/2604.01619
HF: https://huggingface.co/papers/2604.01619
카테고리: -
테마: Evaluation
우선순위 점수: 0.633
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 생물학적 형질 추출의 병목 현상을 해결하기 위해 파운데이션 모델의 특징을 활용한 희소 오토인코더(SAE) 기반의 자동 주석 파이프라인을 제안합니다. 이 시스템은 곤충 이미지에서 의미 있는 신체 부위를 국소화하고 시각-언어 프롬프팅을 통해 해석 가능한 형질 설명을 생성합니다. 이를 통해 19,000개의 곤충 이미지에 대한 80,000개의 형질 주석을 포함하는 Bioscan-Traits 데이터셋을 구축하였습니다.
우리 팀 영향: SAE를 활용한 해석 가능한 특징 추출 기법은 도메인 특화 데이터셋 구축 시 전문가의 수동 레이블링 비용을 획기적으로 줄이는 데 기여할 수 있습니다.
액션: 실험
액션 근거: 희소 오토인코더를 이용한 특징 국소화 및 자동 주석 생성 방식이 다른 도메인의 이미지 데이터셋 구축에도 유효한지 검증이 필요합니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

24) Woosh: A Sound Effects Foundation Model

arXiv: https://arxiv.org/abs/2604.01929
HF: https://huggingface.co/papers/2604.01929
카테고리: -
테마: Evaluation
우선순위 점수: 0.633
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: Sony AI가 공개한 Woosh는 사운드 효과(SFX) 생성을 위한 파운데이션 모델로, 고품질 오디오 인코더/디코더와 텍스트-오디오 정렬 모델을 포함합니다. 텍스트 및 비디오 기반 오디오 생성 기능을 제공하며, 저사양 환경을 위한 증류(Distilled) 모델도 함께 공개되었습니다. 기존 StableAudio-Open 및 TangoFlux와 비교하여 공공 및 비공개 데이터셋에서 경쟁력 있는 성능을 입증했습니다.
우리 팀 영향: 오픈 소스로 공개된 고성능 SFX 생성 모델과 증류 모델을 활용하여 효율적인 오디오 콘텐츠 제작 파이프라인을 구축할 수 있습니다.
액션: 실험
액션 근거: 기존 모델 대비 우수한 성능과 비디오 기반 생성 기능을 제공하므로 실제 프로젝트 적용 가능성을 확인하기 위한 벤치마크 테스트가 필요합니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

25) Steerable Visual Representations

arXiv: https://arxiv.org/abs/2604.02327
HF: https://huggingface.co/papers/2604.02327
카테고리: -
테마: RAG
우선순위 점수: 0.567
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: DINOv2나 MAE 같은 기존 시각 표현 모델의 한계를 극복하기 위해 텍스트 프롬프트로 시각적 특징을 제어할 수 있는 Steerable Visual Representations를 제안합니다. 텍스트 정보를 인코더 층에 직접 주입하는 조기 융합(early fusion) 방식을 사용하여 특정 객체에 집중하면서도 시각 표현의 품질을 유지합니다. 이상 탐지 및 개인화된 객체 식별 작업에서 기존 전용 모델들과 대등하거나 더 우수한 성능을 보였습니다.
우리 팀 영향: 텍스트 가이드를 통해 시각적 특징을 미세 조정할 수 있어, 복잡한 이미지 내 특정 객체 추출이나 도메인 특화 검색 성능 향상에 기여할 수 있습니다.
액션: 실험
액션 근거: 기존 ViT 모델의 범용성을 유지하면서도 텍스트로 시각적 초점을 제어할 수 있는 메커니즘이 실무적인 검색 및 분류 작업에 유용할 것으로 판단됩니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

26) ASI-Evolve: AI Accelerates AI

arXiv: https://arxiv.org/abs/2603.29640
HF: https://huggingface.co/papers/2603.29640
카테고리: -
테마: Benchmark
우선순위 점수: 0.3
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: ASI-Evolve는 데이터, 아키텍처, 학습 알고리즘 등 AI 개발의 핵심 요소를 스스로 개선하는 에이전트 기반 연구 프레임워크입니다. 인간의 사전 지식을 주입하는 인지 기반과 실험 결과를 통찰로 변환하는 분석기를 통해 폐쇄 루프형 연구 사이클을 구현했습니다. 실험 결과 선형 어텐션 구조, 데이터 큐레이션 파이프라인, RL 알고리즘 설계 등 다방면에서 기존 인간 설계 방식보다 높은 성능 향상을 입증했습니다.
우리 팀 영향: AI 연구 프로세스 자체를 자동화하여 모델 아키텍처 최적화 및 데이터 정제 효율성을 획기적으로 높일 수 있는 가능성을 제시합니다.
액션: 실험
액션 근거: 데이터 큐레이션 및 RL 알고리즘 설계에서 보고된 성능 향상 폭이 크므로 내부 벤치마크에 적용하여 재현성을 검증할 가치가 있습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

27) Tex3D: Objects as Attack Surfaces via Adversarial 3D Textures for Vision-Language-Action Models

arXiv: https://arxiv.org/abs/2604.01618
HF: https://huggingface.co/papers/2604.01618
카테고리: -
테마: General
우선순위 점수: 0.233
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: VLA(Vision-Language-Action) 모델의 물리적 취약성을 분석하기 위해 3D 텍스처를 활용한 적대적 공격 프레임워크인 Tex3D를 제안합니다. 미분 불가능한 시뮬레이션 환경을 극복하기 위해 FBD와 TAAO 기법을 도입하여 물리적으로 구현 가능한 최적의 3D 텍스처를 생성합니다. 실험 결과, 실제 로봇 환경에서 최대 96.7%의 작업 실패율을 기록하며 VLA 시스템의 심각한 보안 취약점을 입증했습니다.
우리 팀 영향: 로봇 제어 모델의 안전성 검증을 위해 물리적 3D 객체 기반의 적대적 공격 시나리오를 테스트베드에 도입할 수 있습니다.
액션: 실험
액션 근거: VLA 모델의 실제 배포 환경에서 발생할 수 있는 물리적 공격에 대한 방어 기법 연구가 필요하기 때문입니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

28) DynaVid: Learning to Generate Highly Dynamic Videos using Synthetic Motion Data

arXiv: https://arxiv.org/abs/2604.01666
HF: https://huggingface.co/papers/2604.01666
카테고리: -
테마: General
우선순위 점수: 0.1
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: DynaVid는 합성 데이터의 광학 흐름(Optical Flow)을 활용하여 고역동성 비디오 생성의 한계를 극복하는 프레임워크입니다. 모션 생성기와 모션 가이드 비디오 생성기로 구성된 2단계 구조를 통해 외형의 부자연스러움 없이 정밀한 움직임을 학습합니다. 격렬한 인체 움직임과 극한의 카메라 제어 시나리오에서 기존 모델 대비 향상된 제어력을 입증했습니다.
우리 팀 영향: 합성 데이터에서 모션 정보만 추출하여 학습에 활용하는 방식은 데이터 부족 문제를 해결하고 비디오 제어 정밀도를 높이는 데 기여할 수 있습니다.
액션: 실험
액션 근거: 모션과 외형을 분리하여 합성 데이터를 활용하는 전략이 실질적인 비디오 품질 및 제어 성능 향상으로 이어지는지 검증이 필요합니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

29) T5Gemma-TTS Technical Report

arXiv: https://arxiv.org/abs/2604.01760
HF: https://huggingface.co/papers/2604.01760
카테고리: -
테마: General
우선순위 점수: 0.1
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: T5Gemma-TTS는 인코더-디코더 구조를 채택하여 긴 문장에서도 텍스트 컨디셔닝을 안정적으로 유지하는 코덱 언어 모델입니다. PM-RoPE 기술을 도입하여 디코더가 음성 길이를 추적할 수 있게 함으로써 발화 지속 시간 제어 성능을 대폭 향상시켰습니다. 17만 시간의 다국어 데이터를 학습하여 일본어 화자 유사도와 문자 오류율에서 우수한 성능을 보였으며, 학습되지 않은 한국어에서도 높은 유사도를 기록했습니다.
우리 팀 영향: 인코더-디코더 구조와 PM-RoPE를 통한 안정적인 텍스트 컨디셔닝 기법은 장문 TTS 모델 설계 시 핵심 참고 자료가 될 수 있습니다.
액션: 실험
액션 근거: 학습 데이터에 포함되지 않은 한국어에 대해서도 높은 제로샷 화자 유사도를 보인 점과 공개된 코드를 통한 검증 가치가 높기 때문입니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

30) FlowSlider: Training-Free Continuous Image Editing via Fidelity-Steering Decomposition

arXiv: https://arxiv.org/abs/2604.02088
HF: https://huggingface.co/papers/2604.02088
카테고리: -
테마: General
우선순위 점수: 0.1
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: FlowSlider는 Rectified Flow 모델에서 별도의 추가 학습 없이 슬라이더 방식의 연속적 이미지 편집을 가능하게 하는 기법입니다. FlowEdit의 업데이트 과정을 정체성 보존을 위한 충실도 항과 의미론적 변화를 유도하는 조향 항으로 분해하여 제어합니다. 두 항의 기하학적 직교성을 활용해 충실도 항은 유지하면서 조향 항만 조절함으로써 부드럽고 안정적인 편집 강도 조절을 구현했습니다.
우리 팀 영향: 추가 학습이나 보조 모듈 없이도 기존 확산 모델의 가중치를 활용해 정밀한 이미지 편집 강도 제어가 가능해져 개발 효율성을 높일 수 있습니다.
액션: 실험
액션 근거: Training-free 방식의 직교 분해 기법이 실제 다양한 도메인에서 일관된 편집 성능을 보이는지 검증이 필요합니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

31) Efficient and Principled Scientific Discovery through Bayesian Optimization: A Tutorial

arXiv: https://arxiv.org/abs/2604.01328
HF: https://huggingface.co/papers/2604.01328
카테고리: -
테마: General
우선순위 점수: 0.1
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 이 튜토리얼은 전통적인 시행착오 방식의 과학적 발견 과정을 가우스 프로세스와 획득 함수를 활용한 베이지안 최적화(BO) 프레임워크로 정형화하는 방법을 설명합니다. 촉매, 재료 과학, 유기 합성 등 실제 사례를 통해 실험 설계의 효율성을 높이는 BO의 핵심 구성 요소와 워크플로우를 다룹니다. 또한 배치 실험, 이분산성, 인간 개입형 통합과 같은 과학적 응용을 위한 기술적 확장성도 함께 제시합니다.
우리 팀 영향: 실험 설계 최적화 방법론을 체계적으로 정리하여 연구팀의 실험 자원 낭비를 줄이고 데이터 기반의 의사결정 프로세스를 구축하는 데 기여할 수 있습니다.
액션: 도입 검토
액션 근거: 베이지안 최적화의 기초부터 실무 응용까지 포괄적으로 다루고 있어 연구 프로세스 효율화 도구로서의 가치가 높기 때문입니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

32) Gated Condition Injection without Multimodal Attention: Towards Controllable Linear-Attention Transformers

arXiv: https://arxiv.org/abs/2603.27666
HF: https://huggingface.co/papers/2603.27666
카테고리: -
테마: General
우선순위 점수: 0.1
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 선형 어텐션 기반 확산 모델인 SANA를 위한 새로운 제어 프레임워크를 제안합니다. 기존 ControlNet 방식이 선형 어텐션 모델에서 겪는 느린 수렴과 유연성 부족 문제를 해결하기 위해 이중 경로 파이프라인과 통합 게이트 컨디셔닝 모듈을 도입했습니다. 이를 통해 온디바이스 환경에서도 효율적이고 정교한 다중 조건 제어 생성이 가능함을 입증했습니다.
우리 팀 영향: 온디바이스 환경에서 선형 어텐션 기반의 고효율 제어 생성 모델을 구축할 때 기술적 참조 모델로 활용할 수 있습니다.
액션: 실험
액션 근거: 선형 어텐션 구조에 최적화된 제어 기법으로서 기존 방식 대비 수렴 속도와 성능 우위를 보이고 있어 실제 적용 가능성을 검증할 가치가 있습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

33) Omni123: Exploring 3D Native Foundation Models with Limited 3D Data by Unifying Text to 2D and 3D Generation

arXiv: https://arxiv.org/abs/2604.02289
HF: https://huggingface.co/papers/2604.02289
카테고리: -
테마: General
우선순위 점수: 0.067
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: Omni123은 텍스트, 이미지, 3D 데이터를 단일 자기회귀 프레임워크 내에서 이산 토큰으로 통합한 3D 네이티브 파운데이션 모델입니다. 부족한 3D 데이터를 보완하기 위해 풍부한 2D 데이터를 기하학적 사전 지식으로 활용하며, 데이터 간 완전한 정렬 없이도 학습 가능한 인터리브 X-to-X 학습 패러다임을 제안합니다. 이를 통해 텍스트 기반 3D 생성 및 편집에서 의미론적 일관성과 다중 뷰 기하학적 일관성을 동시에 확보했습니다.
우리 팀 영향: 2D 데이터를 3D 생성의 기하학적 제약 조건으로 활용하는 통합 토큰화 방식은 데이터 부족 문제를 해결하는 효율적인 아키텍처 설계에 참고가 될 수 있습니다.
액션: 실험
액션 근거: 기존의 최적화 기반 파이프라인 대신 자기회귀 모델을 통한 직접적인 3D 생성이 일관성 측면에서 유의미한 성능 향상을 보이는지 검증이 필요합니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

arXiv: https://arxiv.org/abs/2604.00829
HF: https://huggingface.co/papers/2604.00829
카테고리: -
테마: Fine-Tuning
우선순위 점수: 0.067
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: VLM 학습 과정에서 발생하는 언어 능력 저하를 해결하기 위해, 추가 모듈 없이 기존 언어 모델을 교사 모델로 활용하는 LinguDistill 기법을 제안합니다. KV-cache 공유를 통해 교사 모델이 학생 모델의 멀티모달 표현을 참조하게 하며, 언어 집약적 데이터에 대해 선택적 증류를 수행합니다. 이를 통해 시각적 성능을 유지하면서도 손실된 언어 및 지식 벤치마크 성능을 약 10% 회복했습니다.
우리 팀 영향: 추가 파라미터 없이 기존 모델의 언어 능력을 복구할 수 있어, 경량화된 고성능 VLM 구축 시 효율적인 튜닝 전략으로 활용 가능합니다.
액션: 실험
액션 근거: 아키텍처 변경 없이 증류 기법만으로 언어 모델 본연의 성능을 보존할 수 있다는 점에서 실용성이 높기 때문입니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

35) UniRecGen: Unifying Multi-View 3D Reconstruction and Generation

arXiv: https://arxiv.org/abs/2604.01479
HF: https://huggingface.co/papers/2604.01479
카테고리: -
테마: General
우선순위 점수: 0.067
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: UniRecGen은 희소 뷰 3D 모델링에서 재구성의 정확성과 생성 모델의 구조적 완성도를 결합한 통합 프레임워크입니다. 공유 정준 공간(Canonical Space) 내에서 두 모델을 정렬하고 분리된 협력 학습 방식을 통해 훈련 안정성과 추론 시의 시너지를 확보했습니다. 재구성 모듈이 기하학적 앵커를 제공하면 확산 생성기가 이를 보완하여 일관성 있고 상세한 3D 모델을 생성합니다.
우리 팀 영향: 재구성과 생성의 장점을 결합하여 희소 입력 데이터에서도 고품질의 3D 에셋을 제작할 수 있는 기술적 토대를 제공합니다.
액션: 실험
액션 근거: 기존 재구성 방식의 한계인 구조적 미완성 문제를 생성 모델과의 결합으로 해결한 접근 방식이 실무적 가치가 높다고 판단됩니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

36) Working Notes on Late Interaction Dynamics: Analyzing Targeted Behaviors of Late Interaction Models

arXiv: https://arxiv.org/abs/2603.26259
HF: https://huggingface.co/papers/2603.26259
카테고리: -
테마: RAG, Benchmark
우선순위 점수: 0.067
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 본 논문은 Late Interaction 모델의 검색 성능 이면에 숨겨진 다이내믹스인 길이 편향(length bias)과 MaxSim 연산자 이후의 유사도 분포를 분석합니다. NanoBEIR 벤치마크 실험 결과, 인과적 모델뿐만 아니라 양방향 모델에서도 특정 상황에서 길이 편향이 발생함을 확인했습니다. 또한 MaxSim 연산자가 토큰 수준의 유사도 점수를 효율적으로 활용하고 있으며, 상위 1개 토큰 이외에는 유의미한 유사도 경향이 없음을 입증했습니다.
우리 팀 영향: Late Interaction 모델 도입 시 발생할 수 있는 문서 길이 편향 문제를 인지하고 검색 엔진 최적화 전략에 반영할 수 있습니다.
액션: 실험
액션 근거: 현재 사용 중인 검색 모델에서 문서 길이에 따른 점수 왜곡 현상이 발생하는지 검증하고 MaxSim의 효율성을 확인하기 위함입니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

37) Friends and Grandmothers in Silico: Localizing Entity Cells in Language Models

arXiv: https://arxiv.org/abs/2604.01404
HF: https://huggingface.co/papers/2604.01404
카테고리: -
테마: RAG
우선순위 점수: 0.033
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: Language models can answer many entity-centric factual questions, but it remains unclear which internal mechanisms are involved in this process. We study this question across multiple language models.
우리 팀 영향: 추가 검토 필요
액션: 보류
액션 근거: LLM 출력 파싱 실패로 수동 검토가 필요합니다.
요약 신뢰도(모델): 0.2
리뷰 메모:

보류/무시

사유와 재검토일을 기록하세요.

논문 리뷰 2026-04-04 논문 리뷰 2026-04-02

​논문 리뷰 2026-04-03

​Daily Paper Review - 2026-04-03

​수집 요약

​Top Papers

​1) DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language Models

​2) The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook

​3) SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization

​4) Generative World Renderer

​5) UniDriveVLA: Unifying Understanding, Perception, and Action Planning for Autonomous Driving

​6) GPA: Learning GUI Process Automation from Demonstrations

​7) VideoZeroBench: Probing the Limits of Video MLLMs with Spatio-Temporal Evidence Verification

​8) AutoMIA: Improved Baselines for Membership Inference Attack via Agentic Self-Exploration

​9) Memory-Augmented Vision-Language Agents for Persistent and Semantically Consistent Object Captioning

​10) Ask or Assume? Uncertainty-Aware Clarification-Seeking in Coding Agents

​11) LatentUM: Unleashing the Potential of Interleaved Cross-Modal Reasoning via a Latent-Space Unified Model

​12) Apriel-Reasoner: RL Post-Training for General-Purpose and Efficient Reasoning

​13) Brainstacks: Cross-Domain Cognitive Capabilities via Frozen MoE-LoRA Stacks for Continual LLM Learning

​14) Omni-SimpleMem: Autoresearch-Guided Discovery of Lifelong Multimodal Agent Memory

​15) VOID: Video Object and Interaction Deletion

​16) EgoSim: Egocentric World Simulator for Embodied Interaction Generation

​17) Investigating Autonomous Agent Contributions in the Wild: Activity Patterns and Code Change over Time

​18) AIBench: Evaluating Visual-Logical Consistency in Academic Illustration Generation

​19) NearID: Identity Representation Learning via Near-identity Distractors

​20) MDPBench: A Benchmark for Multilingual Document Parsing in Real-World Scenarios

​21) Executing as You Generate: Hiding Execution Latency in LLM Code Generation

​22) ActionParty: Multi-Subject Action Binding in Generative Video Games

​23) Automatic Image-Level Morphological Trait Annotation for Organismal Images

​24) Woosh: A Sound Effects Foundation Model

​25) Steerable Visual Representations

​26) ASI-Evolve: AI Accelerates AI

​27) Tex3D: Objects as Attack Surfaces via Adversarial 3D Textures for Vision-Language-Action Models

​28) DynaVid: Learning to Generate Highly Dynamic Videos using Synthetic Motion Data

​29) T5Gemma-TTS Technical Report

​30) FlowSlider: Training-Free Continuous Image Editing via Fidelity-Steering Decomposition

​31) Efficient and Principled Scientific Discovery through Bayesian Optimization: A Tutorial

​32) Gated Condition Injection without Multimodal Attention: Towards Controllable Linear-Attention Transformers

​33) Omni123: Exploring 3D Native Foundation Models with Limited 3D Data by Unifying Text to 2D and 3D Generation

​34) LinguDistill: Recovering Linguistic Ability in Vision- Language Models via Selective Cross-Modal Distillation

​35) UniRecGen: Unifying Multi-View 3D Reconstruction and Generation

​36) Working Notes on Late Interaction Dynamics: Analyzing Targeted Behaviors of Late Interaction Models

​37) Friends and Grandmothers in Silico: Localizing Entity Cells in Language Models

​보류/무시

논문 리뷰 2026-04-03

Daily Paper Review - 2026-04-03

수집 요약

Top Papers

1) DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language Models

2) The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook

3) SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization

4) Generative World Renderer

5) UniDriveVLA: Unifying Understanding, Perception, and Action Planning for Autonomous Driving

6) GPA: Learning GUI Process Automation from Demonstrations

7) VideoZeroBench: Probing the Limits of Video MLLMs with Spatio-Temporal Evidence Verification

8) AutoMIA: Improved Baselines for Membership Inference Attack via Agentic Self-Exploration

9) Memory-Augmented Vision-Language Agents for Persistent and Semantically Consistent Object Captioning

10) Ask or Assume? Uncertainty-Aware Clarification-Seeking in Coding Agents

11) LatentUM: Unleashing the Potential of Interleaved Cross-Modal Reasoning via a Latent-Space Unified Model

12) Apriel-Reasoner: RL Post-Training for General-Purpose and Efficient Reasoning

13) Brainstacks: Cross-Domain Cognitive Capabilities via Frozen MoE-LoRA Stacks for Continual LLM Learning

14) Omni-SimpleMem: Autoresearch-Guided Discovery of Lifelong Multimodal Agent Memory

15) VOID: Video Object and Interaction Deletion

16) EgoSim: Egocentric World Simulator for Embodied Interaction Generation

17) Investigating Autonomous Agent Contributions in the Wild: Activity Patterns and Code Change over Time

18) AIBench: Evaluating Visual-Logical Consistency in Academic Illustration Generation

19) NearID: Identity Representation Learning via Near-identity Distractors

20) MDPBench: A Benchmark for Multilingual Document Parsing in Real-World Scenarios

21) Executing as You Generate: Hiding Execution Latency in LLM Code Generation

22) ActionParty: Multi-Subject Action Binding in Generative Video Games

23) Automatic Image-Level Morphological Trait Annotation for Organismal Images

24) Woosh: A Sound Effects Foundation Model

25) Steerable Visual Representations

26) ASI-Evolve: AI Accelerates AI

27) Tex3D: Objects as Attack Surfaces via Adversarial 3D Textures for Vision-Language-Action Models

28) DynaVid: Learning to Generate Highly Dynamic Videos using Synthetic Motion Data

29) T5Gemma-TTS Technical Report

30) FlowSlider: Training-Free Continuous Image Editing via Fidelity-Steering Decomposition

31) Efficient and Principled Scientific Discovery through Bayesian Optimization: A Tutorial

32) Gated Condition Injection without Multimodal Attention: Towards Controllable Linear-Attention Transformers

33) Omni123: Exploring 3D Native Foundation Models with Limited 3D Data by Unifying Text to 2D and 3D Generation

34) LinguDistill: Recovering Linguistic Ability in Vision- Language Models via Selective Cross-Modal Distillation

35) UniRecGen: Unifying Multi-View 3D Reconstruction and Generation

36) Working Notes on Late Interaction Dynamics: Analyzing Targeted Behaviors of Late Interaction Models

37) Friends and Grandmothers in Silico: Localizing Entity Cells in Language Models

보류/무시