Skip to main content

논문 정보

  • 날짜: 2026-04-10
  • 카테고리: -
  • 우선순위 점수: 2.133

핵심 요약

ClawBench는 구매, 예약, 구직 등 15개 카테고리의 153개 실제 온라인 과업을 수행하는 AI 에이전트 평가 프레임워크입니다. 정적 샌드박스가 아닌 실제 운영 중인 웹사이트에서 다단계 워크플로우와 복잡한 양식 작성을 테스트하며, 최종 제출만 차단하는 안전 장치를 포함합니다. 실험 결과 Claude Sonnet 4.6이 33.3%의 성공률을 기록하는 등 현재 모델들의 실생활 과업 수행 능력이 아직 낮음을 보여줍니다.

학습자 관점 포인트

  • 우리 팀 영향: 실제 웹 환경에서의 에이전트 성능 측정 지표를 제공하여, 서비스형 AI 에이전트 개발 시 직면할 실질적인 기술적 난관을 파악하는 데 도움을 줍니다.
  • 권장 액션: 실험
  • 액션 근거: 기존 샌드박스 기반 평가의 한계를 넘어 실제 웹 인터랙션 역량을 객관적으로 검증할 수 있는 벤치마크이므로 내부 모델 평가에 활용 가치가 높습니다.

원문 링크

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.