[2603.00912] VGGT-Det: Mining VGGT Internal Priors for Sensor-Geometry-Free Multi-View Indoor 3D Object Detection

논문 정보

날짜: 2026-03-03
카테고리: -
우선순위 점수: 0.967

핵심 요약

VGGT-Det는 카메라 포즈나 깊이 정보 없이 다중 뷰 이미지에서 실내 3D 객체를 탐지하는 최초의 Sensor-Geometry-Free 프레임워크입니다. VGGT 인코더의 내부 어텐션 맵을 활용한 AG 쿼리 생성과 다층 기하학적 특징을 동적으로 통합하는 QD 모듈을 통해 2D 특징을 3D로 효과적으로 변환합니다. 실험 결과 ScanNet과 ARKitScenes 데이터셋에서 기존 SG-Free 방식 대비 각각 4.4, 8.6 mAP@0.25의 성능 향상을 기록했습니다.

학습자 관점 포인트

우리 팀 영향: 정밀한 카메라 캘리브레이션이 어려운 실제 환경에서 추가 센서 데이터 없이도 높은 정확도의 3D 객체 탐지가 가능해져 서비스 배포 유연성이 크게 향상될 수 있습니다.
권장 액션: 실험
액션 근거: 센서 기하 정보가 없는 제약 조건에서도 기존 방식 대비 유의미한 성능 향상을 보였으므로, 실제 서비스 환경의 데이터셋을 활용한 재현 실험 가치가 높습니다.

원문 링크

arXiv: https://arxiv.org/abs/2603.00912
Hugging Face Papers: https://huggingface.co/papers/2603.00912

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2603.01940] CoVe: Training Interactive Tool-Use Agents via Constraint-Guided Verification [2603.01907] Efficient RLVR Training via Weighted Mutual Information Data Selection

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크