논문 정보
- 날짜:
2026-03-31 - 카테고리: -
- 우선순위 점수: 0.067
핵심 요약
텍스트 좌표 생성 대신 시각적 토큰을 직접 선택하는 새로운 그라운딩 메커니즘인 MolmoPoint를 제안합니다. 세 단계의 계층적 토큰 구조를 통해 미세한 영역과 위치를 지정하며, 이전 포인트의 상대적 위치 정보를 활용하여 성능을 높였습니다. 이미지, GUI, 비디오 등 다양한 벤치마크에서 기존 텍스트 기반 좌표 방식보다 높은 정확도와 샘플 효율성을 입증했습니다.학습자 관점 포인트
- 우리 팀 영향: 좌표 학습의 복잡성을 줄이고 시각적 토큰 선택 방식을 도입함으로써 VLM의 그라운딩 성능과 추론 효율성을 동시에 개선할 수 있습니다.
- 권장 액션: 실험
- 액션 근거: 기존 텍스트 좌표 방식 대비 높은 샘플 효율성과 벤치마크 성능 향상이 뚜렷하여 내부 모델 적용 가능성을 검토할 가치가 큽니다.
원문 링크
- arXiv: https://arxiv.org/abs/2603.28069
- Hugging Face Papers: https://huggingface.co/papers/2603.28069

