[2602.23361] VGG-T^3: Offline Feed-Forward 3D Reconstruction at Scale

논문 정보

날짜: 2026-02-28
카테고리: -
우선순위 점수: 0.367

핵심 요약

입력 이미지 수에 따라 연산량이 기하급수적으로 증가하는 기존 오프라인 피드포워드 3D 재구성 모델의 한계를 해결하기 위해 VGG-T^3를 제안합니다. 가변 길이의 KV 공간 표현을 고정 크기의 MLP로 증류하는 테스트 시간 학습(TTT) 방식을 통해 연산 복잡도를 선형적으로 개선했습니다. 이를 통해 1,000장의 이미지를 54초 만에 재구성하며 기존 소프트맥스 어텐션 기반 모델 대비 11.6배의 속도 향상을 달성했습니다.

학습자 관점 포인트

우리 팀 영향: 대규모 이미지 데이터셋을 활용한 3D 재구성 및 시각적 위치 추정 작업의 효율성을 크게 개선할 수 있습니다.
권장 액션: 실험
액션 근거: 선형적 스케일링과 빠른 재구성 속도를 제공하면서도 정확도를 유지한다는 점에서 실제 대규모 데이터 처리 적용 가능성이 높습니다.

원문 링크

arXiv: https://arxiv.org/abs/2602.23361
Hugging Face Papers: https://huggingface.co/papers/2602.23361

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2602.21760] Accelerating Diffusion via Hybrid Data-Pipeline Parallelism Based on Conditional Guidance Scheduling [2602.23205] EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크