논문 정보
- 날짜:
2026-04-02 - 카테고리: -
- 우선순위 점수: 2.267
핵심 요약
Vision2Web은 정적 UI 생성부터 풀스택 개발까지 아우르는 시각적 웹사이트 개발 벤치마크로, 16개 카테고리의 193개 작업을 포함합니다. GUI 에이전트와 VLM 기반 판별기를 결합한 워크플로우 검증 패러다임을 통해 에이전트의 성능을 다각도로 평가합니다. 실험 결과 최신 모델들도 복잡한 풀스택 개발 단계에서는 여전히 큰 성능 한계를 보였습니다.학습자 관점 포인트
- 우리 팀 영향: 웹 개발 에이전트의 시각적 이해도와 코드 생성 능력을 정밀하게 측정할 수 있는 평가 지표 및 데이터셋으로 활용 가능합니다.
- 권장 액션: 실험
- 액션 근거: 실제 웹사이트 기반의 계층적 데이터셋과 검증 프레임워크가 구축되어 있어 내부 에이전트 성능 측정에 유용하기 때문입니다.
원문 링크
- arXiv: https://arxiv.org/abs/2603.26648
- Hugging Face Papers: https://huggingface.co/papers/2603.26648

