논문 정보
- 날짜:
2026-03-01 - 카테고리: -
- 우선순위 점수: 0.367
핵심 요약
입력 이미지 수에 따라 연산량이 기하급수적으로 증가하는 기존 오프라인 피드포워드 3D 재구성 모델의 한계를 해결하기 위해 VGG-T^3를 제안합니다. 가변 길이의 KV 공간 표현을 고정 크기의 MLP로 증류하는 테스트 시간 학습(TTT) 방식을 통해 연산 복잡도를 선형적으로 낮추었습니다. 이를 통해 1,000장의 이미지를 54초 만에 재구성하며 기존 소프트맥스 어텐션 기반 모델 대비 11.6배의 속도 향상을 달성했습니다.학습자 관점 포인트
- 우리 팀 영향: 대규모 이미지 세트를 활용한 3D 재구성 및 시각적 위치 추정 작업의 효율성을 획기적으로 개선할 수 있습니다.
- 권장 액션: 도입 검토
- 액션 근거: 선형적 스케일링을 통해 대규모 데이터셋에서도 고속 재구성이 가능하며 기존 선형 시간 모델보다 정확도가 높기 때문입니다.
원문 링크
- arXiv: https://arxiv.org/abs/2602.23361
- Hugging Face Papers: https://huggingface.co/papers/2602.23361

