Skip to main content

논문 정보

  • 날짜: 2026-03-31
  • 카테고리: -
  • 우선순위 점수: 0.067

핵심 요약

텍스트 좌표 생성 대신 시각적 토큰을 직접 선택하는 새로운 그라운딩 메커니즘인 MolmoPoint를 제안합니다. 세 단계의 계층적 토큰 구조를 통해 미세한 영역과 위치를 지정하며, 이전 포인트의 상대적 위치 정보를 활용하여 성능을 높였습니다. 이미지, GUI, 비디오 등 다양한 벤치마크에서 기존 텍스트 기반 좌표 방식보다 높은 정확도와 샘플 효율성을 입증했습니다.

학습자 관점 포인트

  • 우리 팀 영향: 좌표 학습의 복잡성을 줄이고 시각적 토큰 선택 방식을 도입함으로써 VLM의 그라운딩 성능과 추론 효율성을 동시에 개선할 수 있습니다.
  • 권장 액션: 실험
  • 액션 근거: 기존 텍스트 좌표 방식 대비 높은 샘플 효율성과 벤치마크 성능 향상이 뚜렷하여 내부 모델 적용 가능성을 검토할 가치가 큽니다.

원문 링크

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.