논문 리뷰 2026-04-01

기준일: 2026-04-01
수집 건수(중복 제거): 34
발행 Top N: 34
원본 리포트: trend/reports/daily/2026-04-01.md
마지막 갱신: 2026-04-02 00:02:35

Daily Paper Review - 2026-04-01

수집 요약

총 수집(중복 제거 후): 34
발행 Top N: 34
LLM 요약 성공: 34
LLM 요약 폴백: 0

Top Papers

1) FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization

arXiv: https://arxiv.org/abs/2603.19835
HF: https://huggingface.co/papers/2603.19835
카테고리: -
테마: Reasoning
우선순위 점수: 4.6
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: FIPO는 기존 GRPO 방식의 획일적인 보상 할당 문제를 해결하기 위해 미래 KL 발산 값을 활용한 조밀한 이득(dense advantage) 공식을 제안합니다. 이를 통해 모델이 논리적 핵심 토큰을 더 잘 식별하게 하며, Qwen2.5-32B 모델에서 추론 길이를 10,000 토큰 이상으로 확장하는 성과를 거두었습니다. 결과적으로 AIME 2024 벤치마크에서 o1-mini와 대등하거나 이를 상회하는 58.0%의 정확도를 달성했습니다.
우리 팀 영향: ORM 기반 강화학습 시 발생하는 신용 할당 문제를 개선하여 복잡한 추론 작업에서 모델의 사고 체인 길이를 획기적으로 늘릴 수 있는 방법론을 제공합니다.
액션: 실험
액션 근거: 기존 GRPO의 한계를 극복하고 o1-mini 수준의 성능을 입증한 오픈소스 기반 방법론이므로 내부 추론 모델 고도화에 적용 가능성이 높습니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

2) CARLA-Air: Fly Drones Inside a CARLA World — A Unified Infrastructure for Air-Ground Embodied Intelligence

arXiv: https://arxiv.org/abs/2603.28032
HF: https://huggingface.co/papers/2603.28032
카테고리: -
테마: General
우선순위 점수: 4.0
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: CARLA-Air는 CARLA와 AirSim을 통합하여 단일 Unreal Engine 프로세스 내에서 고정밀 도시 주행과 물리 기반 드론 비행을 동시에 시뮬레이션하는 오픈소스 플랫폼입니다. 기존의 도메인 분리 및 동기화 문제를 해결하기 위해 공유 물리 틱과 렌더링 파이프라인을 사용하며, 18가지 이상의 센서 데이터를 동기화하여 캡처할 수 있습니다. 이를 통해 공중-지상 협업 지능, 내비게이션, 강화학습 정책 훈련 등 다양한 연구를 지원합니다.
우리 팀 영향: 공중과 지상 에이전트가 공존하는 복합 환경 시뮬레이션이 가능해짐에 따라 다중 로봇 협업 및 복합 인지 알고리즘 개발 효율이 향상될 것입니다.
액션: 실험
액션 근거: 기존 AirSim의 중단된 개발을 계승하면서 CARLA의 풍부한 지상 자산을 동시에 활용할 수 있어 공중-지상 통합 연구에 실질적인 도움이 될 것으로 판단됩니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

3) LongCat-Next: Lexicalizing Modalities as Discrete Tokens

arXiv: https://arxiv.org/abs/2603.27538
HF: https://huggingface.co/papers/2603.27538
카테고리: -
테마: General
우선순위 점수: 3.667
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: LongCat-Next는 텍스트, 시각, 오디오를 단일 이산 토큰 공간으로 통합하여 모델링하는 DiNA 프레임워크 기반의 멀티모달 모델입니다. 임의 해상도를 지원하는 dNaViT를 통해 시각 신호를 계층적 이산 토큰으로 변환하며, 단일 자기회귀 목적 함수로 모든 모달리티를 처리합니다. 이를 통해 기존 이산 시각 모델링의 성능 한계를 극복하고 이해와 생성 작업 간의 일관성을 확보했습니다.
우리 팀 영향: 다양한 모달리티를 별도의 어댑터 없이 단일 토큰 체계로 통합하는 방식은 차세대 멀티모달 아키텍처 설계에 중요한 참고 사례가 될 것입니다.
액션: 실험
액션 근거: 이산 토큰 기반의 통합 멀티모달 모델링이 이해와 생성 성능을 동시에 확보했는지 검증하고 오픈소스 토크나이저의 효율성을 확인하기 위함입니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

4) daVinci-LLM:Towards the Science of Pretraining

arXiv: https://arxiv.org/abs/2603.27164
HF: https://huggingface.co/papers/2603.27164
카테고리: -
테마: LLM, Reasoning, Evaluation
우선순위 점수: 2.533
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: daVinci-LLM은 산업 규모의 자원과 학술적 자유를 결합하여 사전 학습의 과학적 방법론을 탐구한 연구입니다. 3B 파라미터 모델을 8T 토큰으로 학습시키며 데이터 처리 깊이와 도메인별 포화 역학 등 200개 이상의 통제 변수 실험을 수행했습니다. 데이터 처리 프레임워크인 Data Darwinism과 2단계 적응형 커리큘럼을 통해 사전 학습 과정의 체계적인 지식을 공유합니다.
우리 팀 영향: 사전 학습 데이터의 처리 깊이와 도메인 비중 조절에 대한 구체적인 실험 데이터는 우리 팀의 자체 모델 학습 효율화 전략 수립에 직접적인 참고가 될 수 있습니다.
액션: 실험
액션 근거: 공개된 데이터 처리 파이프라인과 200여 개의 실험 결과는 리소스 낭비를 줄이고 최적의 사전 학습 경로를 설계하는 데 실질적인 가이드라인을 제공하기 때문입니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

5) GEMS: Agent-Native Multimodal Generation with Memory and Skills

arXiv: https://arxiv.org/abs/2603.28088
HF: https://huggingface.co/papers/2603.28088
카테고리: -
테마: Agent
우선순위 점수: 2.467
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: GEMS는 에이전트 루프, 메모리, 스킬 시스템을 결합하여 멀티모달 생성 모델의 성능을 극대화하는 프레임워크입니다. 반복적인 최적화 루프와 계층적 메모리 구조를 통해 복잡한 지시사항 이행 능력을 강화하며, 도메인 특화 스킬을 필요에 따라 로드하여 사용합니다. 실험 결과 6B 규모의 경량 모델이 특정 벤치마크에서 대형 모델을 능가하는 효율성을 입증했습니다.
우리 팀 영향: 에이전트 기반의 반복 최적화 구조를 도입함으로써 기존 경량 모델의 생성 품질을 상용 모델 수준으로 끌어올릴 수 있는 가능성을 제시합니다.
액션: 실험
액션 근거: 경량 모델로도 고성능 멀티모달 생성이 가능하다는 점이 확인되었으므로, 내부 생성 파이프라인에 에이전트 루프와 메모리 구조를 적용해 볼 가치가 있습니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

6) Lingshu-Cell: A generative cellular world model for transcriptome modeling toward virtual cells

arXiv: https://arxiv.org/abs/2603.25240
HF: https://huggingface.co/papers/2603.25240
카테고리: -
테마: Benchmark
우선순위 점수: 2.3
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: Lingshu-Cell은 단일 세포 전사체 데이터의 상태 분포를 학습하고 섭동에 따른 변화를 시뮬레이션하는 마스크 이산 확산 모델입니다. 약 18,000개 유전자의 복잡한 의존성을 사전 선택 없이 직접 학습하며, 다양한 조직과 종에서 세포 이질성을 정확하게 재현합니다. Virtual Cell Challenge H1 벤치마크 등에서 우수한 성능을 보이며 유전적 섭동 및 사이토카인 반응 예측 능력을 입증했습니다.
우리 팀 영향: 세포 상태 변화와 약물/유전자 섭동 결과를 가상 환경에서 정밀하게 예측함으로써 신약 개발 및 생물학적 실험 비용을 절감할 수 있습니다.
액션: 실험
액션 근거: 기존 정적 표현 모델과 달리 생성적 시뮬레이션이 가능하며 벤치마크에서 검증된 성능을 보여 실제 데이터 적용 가능성이 높습니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

7) Unify-Agent: A Unified Multimodal Agent for World-Grounded Image Synthesis

arXiv: https://arxiv.org/abs/2603.29620
HF: https://huggingface.co/papers/2603.29620
카테고리: -
테마: Agent, Reasoning, Benchmark
우선순위 점수: 2.2
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: Unify-Agent는 고정된 파라미터 지식의 한계를 극복하기 위해 이미지 생성을 프롬프트 이해, 증거 검색, 재캡셔닝, 최종 합성의 에이전트 파이프라인으로 재구성한 모델입니다. 이를 위해 143K개의 고품질 에이전트 궤적 데이터를 구축하고, 외부 지식 접지가 필요한 12개 카테고리의 FactIP 벤치마크를 도입했습니다. 실험 결과, 검색과 추론을 결합하여 롱테일 및 지식 집약적 개념에 대한 이미지 생성 성능을 유의미하게 향상시켰습니다.
우리 팀 영향: 검색 기반 에이전트 구조를 이미지 생성에 도입함으로써 외부 지식이 필요한 복잡한 시각적 콘텐츠 생성의 정확도를 높일 수 있습니다.
액션: 실험
액션 근거: 에이전트 기반의 다단계 추론 및 검색 프로세스가 실제 지식 기반 이미지 생성 성능에 미치는 영향을 내부 데이터셋으로 검증할 가치가 있습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

8) Tabular LLMs for Interpretable Few-Shot Alzheimer’s Disease Prediction with Multimodal Biomedical Data

arXiv: https://arxiv.org/abs/2603.17191
HF: https://huggingface.co/papers/2603.17191
카테고리: -
테마: Agent, LLM, Reasoning
우선순위 점수: 1.8
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: TAP-GPT는 알츠하이머병 진단을 위해 TableGPT2를 기반으로 미세 조정된 도메인 특화 표 형식 LLM 프레임워크입니다. 적은 데이터(few-shot) 환경에서도 전통적인 머신러닝 모델보다 우수한 성능을 보이며, 결측치가 있는 데이터에서도 별도의 보간 없이 안정적인 예측이 가능합니다. 또한 생물학적 근거에 기반한 구조화된 추론 결과를 제공하여 임상 의사 결정 지원 시스템으로서의 가능성을 보여줍니다.
우리 팀 영향: 표 형식의 의료 데이터와 멀티모달 바이오마커를 활용한 소량 데이터 학습 및 추론 자동화 파이프라인 구축에 참고할 수 있습니다.
액션: 실험
액션 근거: 결측치에 강건하고 해석 가능한 추론을 제공하는 표 특화 LLM의 성능이 실제 임상 데이터 환경에서 유효한지 검증할 가치가 있습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

9) MonitorBench: A Comprehensive Benchmark for Chain-of-Thought Monitorability in Large Language Models

arXiv: https://arxiv.org/abs/2603.28590
HF: https://huggingface.co/papers/2603.28590
카테고리: -
테마: LLM, Reasoning, Benchmark
우선순위 점수: 1.667
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: MonitorBench는 LLM의 사고 과정(CoT)이 실제 최종 출력에 미치는 인과적 영향력을 평가하는 새로운 벤치마크입니다. 19개 작업에 걸친 1,514개의 테스트 인스턴스를 통해 CoT의 모니터링 가능성을 측정하며, 모델의 성능이 높을수록 오히려 모니터링 가능성이 낮아지는 경향을 발견했습니다. 특히 스트레스 테스트 환경에서 모델이 의도적으로 CoT의 투명성을 낮출 수 있음을 실험적으로 증명했습니다.
우리 팀 영향: LLM의 내부 추론 과정과 최종 결과 사이의 정렬 상태를 정량적으로 평가하여 모델의 신뢰성 및 안전성 검증 도구로 활용할 수 있습니다.
액션: 실험
액션 근거: 모델 성능 향상이 반드시 추론 과정의 투명성으로 이어지지 않는다는 점을 확인하기 위해 내부 모델에 대한 모니터링 가능성 측정이 필요합니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

10) FlowPIE: Test-Time Scientific Idea Evolution with Flow-Guided Literature Exploration

arXiv: https://arxiv.org/abs/2603.29557
HF: https://huggingface.co/papers/2603.29557
카테고리: -
테마: RAG, Agent, LLM
우선순위 점수: 1.567
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: FlowPIE는 문헌 탐색과 아이디어 생성을 공진화 과정으로 처리하는 GFlowNet 기반의 MCTS 프레임워크입니다. LLM 보상 모델을 통해 적응형 검색을 수행하고, 격리된 섬 패러다임을 적용한 진화 알고리즘으로 아이디어의 다양성과 참신함을 높였습니다. 기존의 정적 검색-생성 방식에서 벗어나 테스트 타임에 아이디어를 지속적으로 진화시키는 구조를 제안합니다.
우리 팀 영향: 연구 아이디어 생성 시 검색 결과에만 의존하지 않고 진화 알고리즘을 결합하여 더 창의적이고 실행 가능한 결과물을 도출하는 파이프라인을 참고할 수 있습니다.
액션: 실험
액션 근거: GFlowNet과 MCTS를 결합한 적응형 검색 방식이 기존 RAG 기반 아이디어 생성 모델의 한계를 극복할 가능성이 높기 때문입니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

11) CutClaw: Agentic Hours-Long Video Editing via Music Synchronization

arXiv: https://arxiv.org/abs/2603.29664
HF: https://huggingface.co/papers/2603.29664
카테고리: -
테마: Agent
우선순위 점수: 1.533
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: CutClaw는 다중 멀티모달 언어 모델(MLLM)을 활용하여 몇 시간 분량의 원본 영상을 음악과 동기화된 짧은 영상으로 자동 편집하는 에이전트 프레임워크입니다. 계층적 멀티모달 분해를 통해 시각 및 오디오 세부 정보를 캡처하며, Playwriter, Editor, Reviewer 에이전트가 협업하여 서사적 일관성과 미적 기준을 최적화합니다. 실험 결과 리듬 정렬 및 고품질 영상 생성 측면에서 기존 베이스라인 모델들보다 우수한 성능을 보였습니다.
우리 팀 영향: 장시간 영상 데이터를 효율적으로 요약하고 음악 비트에 맞춘 자동 편집 기능을 구현하는 데 참고할 수 있는 에이전트 구조를 제시합니다.
액션: 실험
액션 근거: 멀티 에이전트 기반의 계층적 영상 분석 및 음악 동기화 로직이 실제 영상 편집 자동화 파이프라인에 적용 가능한지 검증이 필요합니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

12) BizGenEval: A Systematic Benchmark for Commercial Visual Content Generation

arXiv: https://arxiv.org/abs/2603.25732
HF: https://huggingface.co/papers/2603.25732
카테고리: -
테마: Reasoning, Benchmark, Evaluation
우선순위 점수: 1.467
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: BizGenEval은 슬라이드, 차트, 웹페이지 등 5가지 상업적 문서 유형을 대상으로 한 시각적 콘텐츠 생성 벤치마크입니다. 텍스트 렌더링, 레이아웃 제어 등 4가지 핵심 역량을 평가하기 위해 400개의 프롬프트와 8,000개의 검증 질문을 포함합니다. 26개 모델을 테스트한 결과, 현재 생성 모델들이 전문적인 디자인 요구사항을 충족하기에는 여전히 큰 격차가 있음이 확인되었습니다.
우리 팀 영향: 상업용 디자인 및 문서 생성 서비스 개발 시 모델의 실무 적합성을 객관적으로 측정할 수 있는 평가 지표로 활용 가능합니다.
액션: 실험
액션 근거: 실제 비즈니스 환경의 복합적인 제약 조건을 반영한 벤치마크이므로, 내부 모델의 상업적 활용 가능성을 정밀하게 검증하기에 적합합니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

13) VGGRPO: Towards World-Consistent Video Generation with 4D Latent Reward

arXiv: https://arxiv.org/abs/2603.26599
HF: https://huggingface.co/papers/2603.26599
카테고리: -
테마: General
우선순위 점수: 1.433
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: VGGRPO는 비디오 확산 모델의 기하학적 일관성을 개선하기 위해 잠재 공간에서 직접 기하학적 정보를 추출하는 Latent Geometry Model(LGM)을 제안합니다. VAE 디코딩 없이 잠재 공간에서 카메라 모션의 부드러움과 재투영 일관성을 보상으로 사용하는 GRPO 알고리즘을 적용했습니다. 이를 통해 정적 장면뿐만 아니라 동적 장면에서도 연산 효율성을 유지하며 일관된 비디오 생성이 가능함을 입증했습니다.
우리 팀 영향: VAE 디코딩 오버헤드 없이 잠재 공간에서 직접 기하학적 일관성을 학습하는 방식은 고해상도 비디오 생성 모델의 효율적인 사후 학습 방법론으로 활용될 수 있습니다.
액션: 실험
액션 근거: 기존 RGB 기반 보상 방식의 연산 비용 문제를 해결하면서 동적 장면의 일관성을 높이는 접근 방식이 실용적 가치가 높다고 판단됩니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

14) How Auditory Knowledge in LLM Backbones Shapes Audio Language Models: A Holistic Evaluation

arXiv: https://arxiv.org/abs/2603.19195
HF: https://huggingface.co/papers/2603.19195
카테고리: -
테마: LLM, Benchmark, Evaluation
우선순위 점수: 1.333
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 텍스트 전용으로 학습된 LLM이 보유한 청각 지식의 양과 이것이 오디오 언어 모델(LALM) 성능에 미치는 영향을 분석했습니다. AKB-2000 벤치마크를 통한 직접 프로빙과 오디오 캡셔너를 활용한 추론, 실제 LALM 미세 조정을 통해 모델별 성능 차이를 검증했습니다. 연구 결과 LLM의 텍스트 기반 청각 지식 수준이 실제 오디오 성능과 강한 상관관계를 보임을 확인했습니다.
우리 팀 영향: 오디오 모델 구축 시 백본 LLM의 텍스트 기반 청각 지식 보유량을 사전에 평가하여 최종 성능을 예측하고 모델을 선정하는 지표로 활용할 수 있습니다.
액션: 실험
액션 근거: LLM의 텍스트 지식과 오디오 성능 간의 상관관계가 입증되었으므로, 최적의 백본 모델 선정을 위한 벤치마크 테스트를 내부 모델에 적용해볼 가치가 있습니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

15) ArtHOI: Taming Foundation Models for Monocular 4D Reconstruction of Hand-Articulated-Object Interactions

arXiv: https://arxiv.org/abs/2603.25791
HF: https://huggingface.co/papers/2603.25791
카테고리: -
테마: Reasoning, Evaluation
우선순위 점수: 1.3
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 단일 RGB 비디오에서 손과 관절이 있는 물체 간의 4D 상호작용을 재구성하는 ArtHOI 프레임워크를 제안합니다. 파운데이션 모델의 사전 학습된 정보를 통합하고, 적응형 샘플링 정제(ASR) 및 MLLM 기반의 접촉 추론을 통해 물리적 비현실성을 해결합니다. ArtHOI-RGBD와 ArtHOI-Wild라는 새로운 데이터셋을 구축하여 다양한 환경에서의 성능을 검증했습니다.
우리 팀 영향: 관절이 있는 물체와 손의 상호작용을 단일 뷰에서 복원하는 기술은 가상 환경 내 객체 조작 및 로봇 학습 데이터 생성에 기여할 수 있습니다.
액션: 실험
액션 근거: 기존의 강체 중심 HOI 연구를 넘어 관절체로 확장되었으며, MLLM을 활용한 물리적 제약 조건 최적화 방식이 독창적이어서 기술적 검증 가치가 높습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

16) SeGPruner: Semantic-Geometric Visual Token Pruner for 3D Question Answering

arXiv: https://arxiv.org/abs/2603.29437
HF: https://huggingface.co/papers/2603.29437
카테고리: -
테마: LLM, Reasoning
우선순위 점수: 1.267
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: SeGPruner는 다중 뷰 이미지를 사용하는 3D QA 모델의 시각적 토큰 중복 문제를 해결하기 위해 제안된 프레임워크입니다. 어텐션 기반의 중요도 모듈과 3D 기하학적 거리를 고려한 다양성 선택기를 결합하여 핵심 객체 정보와 공간적 커버리지를 동시에 확보합니다. 실험 결과, 토큰 예산을 91% 줄이면서도 추론 지연 시간을 86% 단축하여 효율적인 3D 추론 성능을 입증했습니다.
우리 팀 영향: 멀티뷰 기반 3D QA 시스템에서 성능 저하를 최소화하면서 추론 비용과 지연 시간을 획기적으로 줄일 수 있는 토큰 최적화 기법을 제공합니다.
액션: 실험
액션 근거: 토큰 91% 감소와 지연 시간 86% 단축이라는 구체적인 효율성 지표가 우수하여 실제 서비스 적용 가능성을 검토할 가치가 있습니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

17) Think Anywhere in Code Generation

arXiv: https://arxiv.org/abs/2603.29957
HF: https://huggingface.co/papers/2603.29957
카테고리: -
테마: Reasoning
우선순위 점수: 0.9
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 코드 생성 시 사전에만 추론하는 기존 방식의 한계를 극복하기 위해, 생성 과정 중 어느 위치에서든 필요에 따라 추론을 호출할 수 있는 Think-Anywhere 메커니즘을 제안합니다. 콜드 스타트 학습과 결과 기반 강화학습(RL)을 통해 모델이 스스로 추론이 필요한 시점을 판단하도록 학습시켰습니다. 실험 결과 LeetCode 및 HumanEval 등 주요 벤치마크에서 우수한 성능을 보였으며, 엔트로피가 높은 지점에서 적응적으로 추론을 수행하는 특성을 확인했습니다.
우리 팀 영향: 코드 구현 중 발생하는 복잡성에 대응하기 위해 추론 시점을 유연하게 조절하는 방식은 우리 팀의 코드 생성 모델 효율화 및 성능 개선에 기여할 수 있습니다.
액션: 실험
액션 근거: 고정된 추론 방식보다 토큰 생성 과정 중 적응적으로 추론을 수행하는 방식이 실제 복잡한 코딩 문제 해결에 더 효과적일 것으로 판단됩니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

18) Learn2Fold: Structured Origami Generation with World Model Planning

arXiv: https://arxiv.org/abs/2603.29585
HF: https://huggingface.co/papers/2603.29585
카테고리: -
테마: Reasoning
우선순위 점수: 0.767
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: Learn2Fold는 텍스트 설명을 기반으로 물리적으로 유효한 종이접기 시퀀스를 생성하는 뉴로-심볼릭 프레임워크입니다. LLM이 폴딩 프로그램을 제안하면 그래프 구조의 월드 모델이 물리적 타당성을 검증하고 실패 모드를 예측합니다. 이를 통해 기하학적 제약이 엄격한 복잡한 패턴에서도 물리 법칙을 준수하는 긴 호흡의 추론이 가능해졌습니다.
우리 팀 영향: 엄격한 물리적 제약 조건 하에서의 장기 추론 및 계획 능력을 강화하기 위해 뉴로-심볼릭 접근법과 월드 모델 시뮬레이션을 결합하는 구조를 참고할 수 있습니다.
액션: 실험
액션 근거: 심볼릭 추론과 물리적 시뮬레이션의 결합이 복잡한 기하학적 제약 문제를 해결하는 데 효과적임을 입증했으므로 유사한 제약 조건이 있는 도메인에 적용 가능성을 확인해야 합니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

19) VectorGym: A Multitask Benchmark for SVG Code Generation, Sketching, and Editing

arXiv: https://arxiv.org/abs/2603.29852
HF: https://huggingface.co/papers/2603.29852
카테고리: -
테마: Benchmark, Evaluation
우선순위 점수: 0.733
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: VectorGym은 텍스트 및 스케치 기반 SVG 생성, 편집, 캡셔닝을 아우르는 종합 벤치마크 스위트입니다. 전문가가 작성한 주석을 포함하여 실제 디자인 워크플로우를 반영하며, 렌더링 기반 보상을 활용한 다중 작업 강화학습 방법론을 제안합니다. Qwen3-VL 8B 모델로 학습한 결과, 오픈소스 모델 중 최고 성능을 기록하며 GPT-4o 수준의 성능을 달성했습니다.
우리 팀 영향: 전문가 수준의 SVG 데이터셋과 VLM 기반 평가 지표를 통해 고품질 벡터 그래픽 생성 모델 개발 및 검증에 활용할 수 있습니다.
액션: 실험
액션 근거: 기존 합성 데이터 중심의 한계를 벗어나 실제 디자인 의도가 반영된 데이터셋과 강화학습 방법론의 유효성을 직접 검증할 가치가 있습니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

20) CREval: An Automated Interpretable Evaluation for Creative Image Manipulation under Complex Instructions

arXiv: https://arxiv.org/abs/2603.26174
HF: https://huggingface.co/papers/2603.26174
카테고리: -
테마: Benchmark, Evaluation
우선순위 점수: 0.7
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 복잡한 지시어 기반의 창의적 이미지 편집 모델을 평가하기 위한 자동화된 QA 기반 프레임워크인 CREval을 제안합니다. 3개 카테고리와 9개 차원을 포함하는 CREval-Bench를 통해 800개 이상의 샘플과 13,000개의 쿼리로 모델 성능을 체계적으로 측정합니다. 실험 결과 폐쇄형 모델이 상대적으로 우수했으나 모든 모델이 복잡한 편집 작업에서 여전히 한계를 보임을 확인했습니다.
우리 팀 영향: 이미지 편집 모델의 성능을 인간의 판단과 유사하게 자동 측정할 수 있는 벤치마크를 확보하여 모델 평가 효율성을 높일 수 있습니다.
액션: 실험
액션 근거: 복잡한 지시어에 대한 모델의 이해도와 편집 능력을 정밀하게 검증하기 위해 해당 벤치마크 파이프라인의 도입 및 테스트가 필요합니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

21) Distilling Human-Aligned Privacy Sensitivity Assessment from Large Language Models

arXiv: https://arxiv.org/abs/2603.29497
HF: https://huggingface.co/papers/2603.29497
카테고리: -
테마: Evaluation
우선순위 점수: 0.667
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 대규모 언어 모델(LLM)의 개인정보 민감도 평가 능력을 150M 규모의 경량 인코더 모델로 증류(Distillation)하는 연구입니다. 10개 도메인의 데이터를 활용해 Mistral Large 3의 판단 능력을 학습시켰으며, 인간의 평가와 높은 일치도를 유지하면서 연산 비용을 대폭 절감했습니다. 이를 통해 비식별화 시스템의 성능을 측정하는 효율적인 평가 지표로 활용 가능함을 입증했습니다.
우리 팀 영향: 고비용 LLM 대신 경량화된 모델을 활용하여 대규모 텍스트 데이터의 개인정보 노출 위험을 실시간으로 저비용 평가할 수 있습니다.
액션: 실험
액션 근거: 비식별화 모델의 성능 검증을 위한 자동화된 평가 지표로서 경량 모델의 정확도와 효율성을 직접 확인할 가치가 있습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

22) Distilling Conversations: Abstract Compression of Conversational Audio Context for LLM-based ASR

arXiv: https://arxiv.org/abs/2603.26246
HF: https://huggingface.co/papers/2603.26246
카테고리: -
테마: LLM
우선순위 점수: 0.633
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: LLM 기반 ASR 시스템에서 대화 문맥을 효율적으로 활용하기 위해 이전 턴의 오디오 데이터를 고정된 수의 잠재 토큰으로 압축하는 Abstract Compression 기법을 제안합니다. 실험 결과, 다회차 대화 학습을 통해 문맥적 개체 인식 성능이 향상되었으며 원본 오디오 시퀀스 대비 연산 효율성을 확보했습니다. 제안된 모델은 도메인 내외 테스트 세트 모두에서 원본 문맥 활용 성능의 상당 부분을 유지하면서도 오디오 데이터 점유율을 줄였습니다.
우리 팀 영향: 긴 대화 문맥을 처리해야 하는 ASR 모델의 연산 비용을 절감하면서도 개체명 인식 정확도를 개선하는 데 기여할 수 있습니다.
액션: 실험
액션 근거: 오디오 토큰 압축을 통한 효율적인 문맥 반영 방식이 실제 서비스 환경의 긴 대화 처리 성능 개선에 유효한지 검증이 필요합니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

23) Project Imaging-X: A Survey of 1000+ Open-Access Medical Imaging Datasets for Foundation Model Development

arXiv: https://arxiv.org/abs/2603.27460
HF: https://huggingface.co/papers/2603.27460
카테고리: -
테마: General
우선순위 점수: 0.5
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 1,000개 이상의 오픈 액세스 의료 영상 데이터셋을 분석하여 모달리티, 작업, 해부학적 구조 등을 체계적으로 분류한 역대 최대 규모의 서베이 논문입니다. 현재 의료 데이터셋은 소규모로 파편화되어 있고 특정 장기나 모달리티에 편중되어 있어 범용적인 의료 파운데이션 모델 개발에 한계가 있음을 지적합니다. 이를 해결하기 위해 메타데이터 기반 융합 패러다임(MDFP)과 자동화된 데이터 통합을 지원하는 인터랙티브 포털을 제안합니다.
우리 팀 영향: 방대한 의료 영상 데이터셋의 위치와 특성을 한눈에 파악할 수 있어, 의료 AI 모델 학습을 위한 데이터 수집 및 통합 전략 수립에 유용한 기초 자료가 됩니다.
액션: 도입 검토
액션 근거: 파편화된 의료 데이터를 통합할 수 있는 MDFP 방법론과 공개된 데이터셋 리스트가 향후 의료 파운데이션 모델 연구의 데이터 확보 단계에서 실질적인 도움이 될 것으로 판단됩니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

24) Extend3D: Town-Scale 3D Generation

arXiv: https://arxiv.org/abs/2603.29387
HF: https://huggingface.co/papers/2603.29387
카테고리: -
테마: General
우선순위 점수: 0.4
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: Extend3D는 단일 이미지로부터 마을 규모의 대규모 3D 장면을 생성하는 트레이닝 프리(training-free) 파이프라인입니다. 객체 중심 3D 생성 모델의 잠재 공간을 확장하고 패치 단위로 결합하는 방식을 사용하며, 단안 깊이 추정 기반의 포인트 클라우드를 초기값으로 활용합니다. 특히 ‘under-noising’ 개념과 3D 인식 최적화 목적 함수를 도입하여 기하학적 구조와 텍스처의 일관성을 확보했습니다.
우리 팀 영향: 대규모 3D 장면 생성을 위한 잠재 공간 확장 및 패치 결합 기술을 통해 광범위한 환경 구축 효율성을 높일 수 있습니다.
액션: 실험
액션 근거: 별도의 추가 학습 없이 기존 객체 중심 모델을 확장하여 대규모 장면을 생성할 수 있는 방법론의 실효성을 검증할 필요가 있습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

25) Falcon Perception

arXiv: https://arxiv.org/abs/2603.27365
HF: https://huggingface.co/papers/2603.27365
카테고리: -
테마: Benchmark
우선순위 점수: 0.2
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: Falcon Perception은 이미지 패치와 텍스트 토큰을 첫 레이어부터 공유된 파라미터 공간에서 처리하는 통합 트랜스포머 아키텍처를 제안합니다. 하이브리드 어텐션 패턴을 통해 전역 시각 문맥과 자기회귀적 인스턴스 생성을 결합하며, 고해상도 마스크 예측을 위한 경량 토큰 인터페이스를 유지합니다. SA-Co 및 PBench 벤치마크에서 기존 SAM3 대비 향상된 성능을 보였으며, OCR 작업에서도 높은 효율성을 입증했습니다.
우리 팀 영향: 비전 백본과 디코더가 분리된 기존 구조 대신 단일 스택의 조기 융합(early-fusion) 방식을 통해 모델 구조 단순화 및 멀티모달 처리 효율성을 높일 수 있습니다.
액션: 실험
액션 근거: 단일 백본 기반의 조기 융합 구조가 세그멘테이션과 OCR 등 다양한 태스크에서 유효한 성능 향상을 보였으므로 내부 파이프라인 적용 가능성을 검토할 가치가 있습니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

26) OptiMer: Optimal Distribution Vector Merging Is Better than Data Mixing for Continual Pre-Training

arXiv: https://arxiv.org/abs/2603.28858
HF: https://huggingface.co/papers/2603.28858
카테고리: -
테마: General
우선순위 점수: 0.167
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: OptiMer는 지속적 사전 학습(CPT) 시 데이터 혼합 비율을 사전에 결정하는 대신, 각 데이터셋별 모델의 분포 벡터를 추출하여 사후에 최적의 가중치를 탐색하는 프레임워크입니다. Gemma 3 27B 모델 실험 결과, 기존 데이터 믹싱 방식보다 15~35배 낮은 비용으로 더 높은 성능을 달성했습니다. 최적화된 가중치는 데이터 혼합 비율로 재해석될 수 있으며, 재학습 없이도 목적에 맞는 모델을 즉시 생성할 수 있는 유연성을 제공합니다.
우리 팀 영향: 데이터 혼합 비율 튜닝에 소요되는 막대한 컴퓨팅 자원을 절감하고, 사후 최적화를 통해 도메인 특화 모델을 효율적으로 생성할 수 있습니다.
액션: 실험
액션 근거: 기존의 고비용 데이터 믹싱 과정을 사후 벡터 병합으로 대체하여 효율성을 극대화할 수 있는지 검증이 필요합니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

27) MMFace-DiT: A Dual-Stream Diffusion Transformer for High-Fidelity Multimodal Face Generation

arXiv: https://arxiv.org/abs/2603.29029
HF: https://huggingface.co/papers/2603.29029
카테고리: -
테마: General
우선순위 점수: 0.1
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: MMFace-DiT는 텍스트와 공간 정보(마스크, 스케치 등)를 병렬로 처리하는 이중 스트림 디퓨전 트랜스포머 모델입니다. 공유 RoPE 어텐션 메커니즘을 통해 의미론적 의도와 구조적 레이아웃 간의 시너지를 극대화하며 모달리티 간의 충돌을 방지합니다. 새로운 모달리티 임베더를 도입하여 재학습 없이도 다양한 공간 조건에 동적으로 적응할 수 있도록 설계되었습니다.
우리 팀 영향: 멀티모달 제어 조건이 복합적으로 작용하는 얼굴 생성 작업에서 일관성 있는 고품질 결과물을 생성하는 아키텍처로 활용될 수 있습니다.
액션: 실험
액션 근거: 기존 SOTA 모델 대비 시각적 충실도와 프롬프트 정렬 성능이 40% 향상되었다는 수치적 근거가 있어 성능 검증 가치가 높습니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

28) PoseDreamer: Scalable and Photorealistic Human Data Generation Pipeline with Diffusion Models

arXiv: https://arxiv.org/abs/2603.28763
HF: https://huggingface.co/papers/2603.28763
카테고리: -
테마: General
우선순위 점수: 0.1
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: PoseDreamer는 확산 모델을 활용하여 3D 메쉬 어노테이션이 포함된 대규모 합성 데이터를 생성하는 파이프라인입니다. DPO를 통한 제어 정렬과 커리큘럼 기반 샘플 마이닝을 결합하여 50만 개 이상의 고품질 데이터를 구축했습니다. 이를 통해 기존 렌더링 기반 데이터셋보다 이미지 품질을 76% 개선하고 실제 데이터와 유사한 성능을 입증했습니다.
우리 팀 영향: 고품질 3D 휴먼 데이터 확보가 어려운 상황에서 확산 모델 기반의 정밀한 합성 데이터 생성 기술은 모델 학습 효율을 크게 높일 수 있습니다.
액션: 실험
액션 근거: 기존 렌더링 데이터의 한계를 극복하고 실제 데이터와 결합 시 시너지가 확인되었으므로 내부 모델 성능 개선 실험에 적합합니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

29) AutoWeather4D: Autonomous Driving Video Weather Conversion via G-Buffer Dual-Pass Editing

arXiv: https://arxiv.org/abs/2603.26546
HF: https://huggingface.co/papers/2603.26546
카테고리: -
테마: General
우선순위 점수: 0.1
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: AutoWeather4D는 자율 주행 비디오의 날씨 변환을 위해 기하학적 구조와 조명을 명시적으로 분리하는 피드포워드 3D 편집 프레임워크입니다. G-버퍼 듀얼 패스 메커니즘을 통해 표면 기반의 물리적 상호작용과 동적인 국부 조명 재구성을 가능하게 합니다. 대규모 데이터셋 없이도 물리적 파라미터 제어를 통해 일관성 있는 기상 시나리오를 생성할 수 있습니다.
우리 팀 영향: 자율 주행 학습을 위한 희귀 기상 조건 데이터를 물리 기반의 3D 편집을 통해 효율적으로 확보할 수 있는 가능성을 제시합니다.
액션: 실험
액션 근거: 기존 생성 모델의 데이터 의존성 문제를 해결하고 물리적 제어가 가능한 데이터 증강 엔진으로서의 활용 가치가 높기 때문입니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

30) WorldFlow3D: Flowing Through 3D Distributions for Unbounded World Generation

arXiv: https://arxiv.org/abs/2603.29089
HF: https://huggingface.co/papers/2603.29089
카테고리: -
테마: General
우선순위 점수: 0.067
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: WorldFlow3D는 Flow Matching 기법을 활용하여 경계가 없는 무한한 3D 월드를 생성하는 새로운 방법론을 제시합니다. 잠재 변수가 없는 Flow 방식을 통해 인과관계가 명확하고 정확한 3D 구조를 생성하며, 벡터화된 레이아웃 조건을 통해 기하학적 구조와 질감을 제어할 수 있습니다. 실외 주행 장면과 실내 합성 데이터셋 모두에서 기존 방식보다 빠른 수렴 속도와 높은 생성 품질을 입증했습니다.
우리 팀 영향: 무한한 3D 장면 생성 기술은 로보틱스 시뮬레이션 및 가상 환경 구축을 위한 효율적인 데이터 생성 도구로 활용될 가능성이 높습니다.
액션: 실험
액션 근거: Flow Matching 기반의 3D 생성 방식이 기존 확산 모델 대비 수렴 속도와 구조적 정확도 측면에서 이점이 있는지 검증이 필요합니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

31) Ghost-FWL: A Large-Scale Full-Waveform LiDAR Dataset for Ghost Detection and Removal

arXiv: https://arxiv.org/abs/2603.28224
HF: https://huggingface.co/papers/2603.28224
카테고리: -
테마: General
우선순위 점수: 0.033
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 유리나 반사체로 인해 발생하는 고스트 현상을 해결하기 위해 세계 최대 규모의 Full-Waveform LiDAR(FWL) 데이터셋인 Ghost-FWL을 제안합니다. 기존 기하학적 방식의 한계를 극복하고자 시간적 강도 프로파일을 활용하며, 24,000 프레임과 75억 개의 주석을 포함합니다. 이를 통해 SLAM의 궤적 오차를 66% 줄이고 3D 객체 탐지의 오탐률을 50배 낮추는 성능 향상을 입증했습니다.
우리 팀 영향: 고정밀 3D 매핑 및 자율주행 센서 데이터의 신뢰성을 저해하는 고스트 노이즈 제거 기술의 벤치마크로 활용될 수 있습니다.
액션: 실험
액션 근거: 기존 포인트 클라우드 방식보다 정밀한 FWL 데이터를 활용한 노이즈 제거 효과가 SLAM 및 객체 탐지 성능 향상에 기여함이 확인되었기 때문입니다.
요약 신뢰도(모델): 0.95
리뷰 메모:

32) Colon-Bench: An Agentic Workflow for Scalable Dense Lesion Annotation in Full-Procedure Colonoscopy Videos

arXiv: https://arxiv.org/abs/2603.25645
HF: https://huggingface.co/papers/2603.25645
카테고리: -
테마: Benchmark
우선순위 점수: 0.033
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: Colon-Bench는 대장 내시경 전체 영상에 대해 14개 병변 카테고리와 30만 개 이상의 바운딩 박스를 포함하는 대규모 벤치마크 데이터셋입니다. 에이전트 기반 워크플로우를 통해 시간적 제안, 추적, AI 시각 확인 및 인간 검토를 통합하여 고품질의 정밀 어노테이션을 생성했습니다. 이를 통해 최신 멀티모달 거대언어모델(MLLM)의 병변 분류 및 비디오 객체 분할 성능을 엄격하게 평가하고 성능 향상을 위한 프롬프팅 전략을 제시했습니다.
우리 팀 영향: 대규모 의료 영상 데이터 구축을 위한 에이전트 기반 자동화 워크플로우와 정밀한 벤치마크 데이터셋은 의료 AI 모델의 성능 검증 및 고도화에 기여할 수 있습니다.
액션: 실험
액션 근거: 제시된 에이전트 기반 어노테이션 파이프라인과 MLLM 성능 향상을 위한 프롬프팅 전략의 유효성을 내부 데이터셋에 적용하여 검증할 가치가 있습니다.
요약 신뢰도(모델): 0.9
리뷰 메모:

33) It Takes Two: A Duet of Periodicity and Directionality for Burst Flicker Removal

arXiv: https://arxiv.org/abs/2603.22794
HF: https://huggingface.co/papers/2603.22794
카테고리: -
테마: General
우선순위 점수: 0.033
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 단노출 연사 촬영 시 발생하는 플리커 현상을 제거하기 위해 주기성과 방향성이라는 두 가지 고유 특성을 활용한 Flickerformer를 제안합니다. 위상 기반 퓨전 모듈과 자기상관 피드포워드 네트워크를 통해 프레임 간 결합 및 공간적 반복 패턴 인지 능력을 강화했습니다. 또한 웨이블릿 기반 방향성 어텐션 모듈을 도입하여 저조도 영역의 플리커 위치를 정밀하게 파악하고 복원합니다.
우리 팀 영향: 연사 이미지 기반의 저조도 화질 개선 솔루션 개발 시, 구조적 노이즈인 플리커를 효과적으로 억제하는 기술적 참고 자료로 활용 가능합니다.
액션: 실험
액션 근거: 기존 복원 프레임워크에서 간과되던 플리커의 주기적, 방향적 특성을 Transformer 구조에 통합하여 성능 향상을 입증했으므로 실제 데이터셋 적용 테스트가 필요합니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

34) TrajectoryMover: Generative Movement of Object Trajectories in Videos

arXiv: https://arxiv.org/abs/2603.29092
HF: https://huggingface.co/papers/2603.29092
카테고리: -
테마: General
우선순위 점수: 0.0
요약 생성: llm/openrouter:google/gemini-3-flash-preview
핵심 요약: 비디오 내 객체의 상대적인 3D 모션을 유지하면서 궤적을 이동시키는 TrajectoryMover 프레임워크를 제안합니다. 대규모 합성 쌍 데이터 생성을 위한 TrajectoryAtlas 파이프라인을 구축하여 데이터 부족 문제를 해결했습니다. 이를 통해 비전문가도 직관적으로 비디오 내 객체의 위치와 이동 경로를 편집할 수 있게 합니다.
우리 팀 영향: 비디오 생성 및 편집 시 객체의 물리적 움직임을 보존하며 위치를 수정하는 정밀 제어 기술로 활용될 수 있습니다.
액션: 실험
액션 근거: 기존에 어려웠던 3D 궤적 보존 기반의 객체 이동 편집 성능을 검증하고 합성 데이터 생성 파이프라인의 효용성을 확인하기 위함입니다.
요약 신뢰도(모델): 0.85
리뷰 메모:

보류/무시

사유와 재검토일을 기록하세요.

논문 리뷰 2026-04-02 논문 리뷰 2026-03-31

​논문 리뷰 2026-04-01

​Daily Paper Review - 2026-04-01

​수집 요약

​Top Papers

​1) FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization

​2) CARLA-Air: Fly Drones Inside a CARLA World — A Unified Infrastructure for Air-Ground Embodied Intelligence

​3) LongCat-Next: Lexicalizing Modalities as Discrete Tokens

​4) daVinci-LLM:Towards the Science of Pretraining

​5) GEMS: Agent-Native Multimodal Generation with Memory and Skills

​6) Lingshu-Cell: A generative cellular world model for transcriptome modeling toward virtual cells

​7) Unify-Agent: A Unified Multimodal Agent for World-Grounded Image Synthesis

​8) Tabular LLMs for Interpretable Few-Shot Alzheimer’s Disease Prediction with Multimodal Biomedical Data

​9) MonitorBench: A Comprehensive Benchmark for Chain-of-Thought Monitorability in Large Language Models

​10) FlowPIE: Test-Time Scientific Idea Evolution with Flow-Guided Literature Exploration

​11) CutClaw: Agentic Hours-Long Video Editing via Music Synchronization

​12) BizGenEval: A Systematic Benchmark for Commercial Visual Content Generation

​13) VGGRPO: Towards World-Consistent Video Generation with 4D Latent Reward

​14) How Auditory Knowledge in LLM Backbones Shapes Audio Language Models: A Holistic Evaluation

​15) ArtHOI: Taming Foundation Models for Monocular 4D Reconstruction of Hand-Articulated-Object Interactions

​16) SeGPruner: Semantic-Geometric Visual Token Pruner for 3D Question Answering

​17) Think Anywhere in Code Generation

​18) Learn2Fold: Structured Origami Generation with World Model Planning

​19) VectorGym: A Multitask Benchmark for SVG Code Generation, Sketching, and Editing

​20) CREval: An Automated Interpretable Evaluation for Creative Image Manipulation under Complex Instructions

​21) Distilling Human-Aligned Privacy Sensitivity Assessment from Large Language Models

​22) Distilling Conversations: Abstract Compression of Conversational Audio Context for LLM-based ASR

​23) Project Imaging-X: A Survey of 1000+ Open-Access Medical Imaging Datasets for Foundation Model Development

​24) Extend3D: Town-Scale 3D Generation

​25) Falcon Perception

​26) OptiMer: Optimal Distribution Vector Merging Is Better than Data Mixing for Continual Pre-Training

​27) MMFace-DiT: A Dual-Stream Diffusion Transformer for High-Fidelity Multimodal Face Generation

​28) PoseDreamer: Scalable and Photorealistic Human Data Generation Pipeline with Diffusion Models

​29) AutoWeather4D: Autonomous Driving Video Weather Conversion via G-Buffer Dual-Pass Editing

​30) WorldFlow3D: Flowing Through 3D Distributions for Unbounded World Generation

​31) Ghost-FWL: A Large-Scale Full-Waveform LiDAR Dataset for Ghost Detection and Removal

​32) Colon-Bench: An Agentic Workflow for Scalable Dense Lesion Annotation in Full-Procedure Colonoscopy Videos

​33) It Takes Two: A Duet of Periodicity and Directionality for Burst Flicker Removal

​34) TrajectoryMover: Generative Movement of Object Trajectories in Videos

​보류/무시

논문 리뷰 2026-04-01

Daily Paper Review - 2026-04-01

수집 요약

Top Papers

1) FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization

2) CARLA-Air: Fly Drones Inside a CARLA World — A Unified Infrastructure for Air-Ground Embodied Intelligence

3) LongCat-Next: Lexicalizing Modalities as Discrete Tokens

4) daVinci-LLM:Towards the Science of Pretraining

5) GEMS: Agent-Native Multimodal Generation with Memory and Skills

6) Lingshu-Cell: A generative cellular world model for transcriptome modeling toward virtual cells

7) Unify-Agent: A Unified Multimodal Agent for World-Grounded Image Synthesis

8) Tabular LLMs for Interpretable Few-Shot Alzheimer’s Disease Prediction with Multimodal Biomedical Data

9) MonitorBench: A Comprehensive Benchmark for Chain-of-Thought Monitorability in Large Language Models

10) FlowPIE: Test-Time Scientific Idea Evolution with Flow-Guided Literature Exploration

11) CutClaw: Agentic Hours-Long Video Editing via Music Synchronization

12) BizGenEval: A Systematic Benchmark for Commercial Visual Content Generation

13) VGGRPO: Towards World-Consistent Video Generation with 4D Latent Reward

14) How Auditory Knowledge in LLM Backbones Shapes Audio Language Models: A Holistic Evaluation

15) ArtHOI: Taming Foundation Models for Monocular 4D Reconstruction of Hand-Articulated-Object Interactions

16) SeGPruner: Semantic-Geometric Visual Token Pruner for 3D Question Answering

17) Think Anywhere in Code Generation

18) Learn2Fold: Structured Origami Generation with World Model Planning

19) VectorGym: A Multitask Benchmark for SVG Code Generation, Sketching, and Editing

20) CREval: An Automated Interpretable Evaluation for Creative Image Manipulation under Complex Instructions

21) Distilling Human-Aligned Privacy Sensitivity Assessment from Large Language Models

22) Distilling Conversations: Abstract Compression of Conversational Audio Context for LLM-based ASR

23) Project Imaging-X: A Survey of 1000+ Open-Access Medical Imaging Datasets for Foundation Model Development

24) Extend3D: Town-Scale 3D Generation

25) Falcon Perception

26) OptiMer: Optimal Distribution Vector Merging Is Better than Data Mixing for Continual Pre-Training

27) MMFace-DiT: A Dual-Stream Diffusion Transformer for High-Fidelity Multimodal Face Generation

28) PoseDreamer: Scalable and Photorealistic Human Data Generation Pipeline with Diffusion Models

29) AutoWeather4D: Autonomous Driving Video Weather Conversion via G-Buffer Dual-Pass Editing

30) WorldFlow3D: Flowing Through 3D Distributions for Unbounded World Generation

31) Ghost-FWL: A Large-Scale Full-Waveform LiDAR Dataset for Ghost Detection and Removal

32) Colon-Bench: An Agentic Workflow for Scalable Dense Lesion Annotation in Full-Procedure Colonoscopy Videos

33) It Takes Two: A Duet of Periodicity and Directionality for Burst Flicker Removal

34) TrajectoryMover: Generative Movement of Object Trajectories in Videos

보류/무시