Skip to main content

논문 정보

  • 날짜: 2026-04-10
  • 카테고리: -
  • 우선순위 점수: 1.367

핵심 요약

MolmoWeb은 HTML이나 API 없이 스크린샷만으로 브라우저 작업을 수행하는 오픈 소스 멀티모달 웹 에이전트입니다. 10만 개 이상의 합성 데이터와 3만 개 이상의 인간 시연 데이터가 포함된 MolmoWebMix 데이터셋을 통해 학습되었습니다. 4B 및 8B 모델로 제공되며 WebVoyager 등 주요 벤치마크에서 기존 오픈 모델 및 GPT-4o 기반 에이전트보다 우수한 성능을 보였습니다.

학습자 관점 포인트

  • 우리 팀 영향: HTML 구조에 의존하지 않는 시각 기반 웹 에이전트 기술을 확보하고 공개된 대규모 학습 데이터를 활용하여 자체 에이전트 성능을 고도화할 수 있습니다.
  • 권장 액션: 실험
  • 액션 근거: 공개된 데이터셋과 모델 체크포인트를 활용하여 실제 웹 환경에서의 제어 정확도와 테스트 타임 스케일링 효과를 직접 검증할 가치가 큽니다.

원문 링크

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.