[2604.00528] Think, Act, Build: An Agentic Framework with Vision Language Models for Zero-Shot 3D Visual Grounding

논문 정보

날짜: 2026-04-02
카테고리: -
우선순위 점수: 0.733

핵심 요약

TAB 프레임워크는 3D 포인트 클라우드 전처리에 의존하는 기존 방식 대신 2D VLM 에이전트가 RGB-D 스트림에서 직접 대상을 추적하고 재구성하는 동적 방식을 제안합니다. VLM이 2D 프레임에서 시각적 도구를 호출하여 대상을 식별하면, 다중 뷰 기하학을 활용해 관찰되지 않은 프레임까지 공간 정보를 확장하여 3D 좌표로 매핑합니다. 이 방식은 오픈소스 모델만으로도 기존 제로샷 성능을 크게 상회하며 지도 학습 기반 모델보다 우수한 성능을 보였습니다.

학습자 관점 포인트

우리 팀 영향: 전처리된 3D 데이터 없이도 2D VLM과 기하학적 지식을 결합하여 정밀한 3D 객체 국지화가 가능함을 시사합니다.
권장 액션: 실험
액션 근거: 기존 3D-VG의 한계인 포인트 클라우드 의존성을 탈피하고 2D-to-3D 재구성 패러다임을 제시하여 실용성이 높기 때문입니다.

원문 링크

arXiv: https://arxiv.org/abs/2604.00528
Hugging Face Papers: https://huggingface.co/papers/2604.00528

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2604.00842] Proactive Agent Research Environment: Simulating Active Users to Evaluate Proactive Assistants [2604.01029] Revision or Re-Solving? Decomposing Second-Pass Gains in Multi-LLM Pipelines

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크