논문 정보
- 날짜:
2026-04-11
- 카테고리: -
- 우선순위 점수: 3.833
핵심 요약
ClawBench는 구매, 예약, 구직 등 일상적인 온라인 작업을 수행하는 AI 에이전트의 능력을 평가하기 위한 153개의 실전 과제 프레임워크입니다. 정적 샌드박스가 아닌 실제 운영 중인 웹사이트에서 다단계 워크플로우와 복잡한 양식 작성을 테스트하며, 최종 제출 단계만 차단하여 안전성을 확보했습니다. 실험 결과 Claude Sonnet 4.6이 33.3%의 성공률을 기록하는 등 최신 모델들도 실제 웹 환경의 복잡성을 해결하는 데 어려움을 겪고 있음이 확인되었습니다.
학습자 관점 포인트
- 우리 팀 영향: 실제 웹 환경에서의 에이전트 성능 한계를 명확히 파악하고, 복잡한 폼 입력 및 다단계 탐색 기능 개선을 위한 벤치마크로 활용할 수 있습니다.
- 권장 액션: 실험
- 액션 근거: 기존 샌드박스 기반 평가의 한계를 넘어 실제 웹 서비스와의 상호작용 능력을 객관적으로 측정할 수 있는 유용한 도구이기 때문입니다.
원문 링크
학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.