논문 정보
- 날짜:
2026-03-10 - 카테고리: -
- 우선순위 점수: 2.633
핵심 요약
Holi-Spatial은 수작업 없이 원시 비디오 데이터에서 대규모 3D 공간 지능 데이터를 자동 생성하는 파이프라인입니다. 3D Gaussian Splatting(3DGS)을 활용하여 12,000개의 장면과 120만 개의 공간 QA 쌍을 포함하는 Holi-Spatial-4M 데이터셋을 구축했습니다. 이를 통해 시각-언어 모델(VLM)의 공간 추론 능력을 크게 향상시킬 수 있음을 입증했습니다.학습자 관점 포인트
- 우리 팀 영향: 대규모 3D 데이터 확보가 어려운 환경에서 자동화된 데이터 생성 파이프라인을 통해 공간 추론 모델 학습 효율을 높일 수 있습니다.
- 권장 액션: 실험
- 액션 근거: 자동화된 3D 데이터 생성 방식이 기존 수동 주석 방식의 확장성 문제를 해결할 수 있는지 검증이 필요합니다.
원문 링크
- arXiv: https://arxiv.org/abs/2603.07660
- Hugging Face Papers: https://huggingface.co/papers/2603.07660

