[2604.08523] ClawBench: Can AI Agents Complete Everyday Online Tasks?

논문 정보
핵심 요약
학습자 관점 포인트
원문 링크

논문 정보

날짜: 2026-04-10
카테고리: -
우선순위 점수: 2.133

핵심 요약

ClawBench는 구매, 예약, 구직 등 15개 카테고리의 153개 실제 온라인 과업을 수행하는 AI 에이전트 평가 프레임워크입니다. 정적 샌드박스가 아닌 실제 운영 중인 웹사이트에서 다단계 워크플로우와 복잡한 양식 작성을 테스트하며, 최종 제출만 차단하는 안전 장치를 포함합니다. 실험 결과 Claude Sonnet 4.6이 33.3%의 성공률을 기록하는 등 현재 모델들의 실생활 과업 수행 능력이 아직 낮음을 보여줍니다.

학습자 관점 포인트

우리 팀 영향: 실제 웹 환경에서의 에이전트 성능 측정 지표를 제공하여, 서비스형 AI 에이전트 개발 시 직면할 실질적인 기술적 난관을 파악하는 데 도움을 줍니다.
권장 액션: 실험
액션 근거: 기존 샌드박스 기반 평가의 한계를 넘어 실제 웹 인터랙션 역량을 객관적으로 검증할 수 있는 벤치마크이므로 내부 모델 평가에 활용 가치가 높습니다.

원문 링크

arXiv: https://arxiv.org/abs/2604.08523
Hugging Face Papers: https://huggingface.co/papers/2604.08523

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2604.08364] MegaStyle: Constructing Diverse and Scalable Style Dataset via Consistent Text-to-Image Style Mapping [2604.08545] Act Wisely: Cultivating Meta-Cognitive Tool Use in Agentic Multimodal Models

00. 시작하기

01. AI IDE

02. IDE 확장/플러그인

03. CLI/멀티 플랫폼

04. 에이전트 하네스

05. AI 웹 빌더

06. 워크플로우 플랫폼

08. 일일 리뷰 리포트

07. 논문 트렌드

[2604.08523] ClawBench: Can AI Agents Complete Everyday Online Tasks?

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크

00. 시작하기

01. AI IDE

02. IDE 확장/플러그인

03. CLI/멀티 플랫폼

04. 에이전트 하네스

05. AI 웹 빌더

06. 워크플로우 플랫폼

08. 일일 리뷰 리포트

07. 논문 트렌드

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크