[2604.08523] ClawBench: Can AI Agents Complete Everyday Online Tasks?

논문 정보

날짜: 2026-04-12
카테고리: -
우선순위 점수: 4.6

핵심 요약

ClawBench는 구매, 예약, 구직 등 실생활과 밀접한 15개 카테고리의 153개 온라인 작업을 평가하는 벤치마크입니다. 정적 샌드박스가 아닌 실제 운영 중인 웹사이트에서 다단계 워크플로우와 복잡한 양식 작성을 수행하며, 최종 제출 직전에 요청을 차단하는 안전한 평가 방식을 채택했습니다. 실험 결과 Claude Sonnet 4.6이 33.3%의 성공률을 기록하는 등 최신 모델들도 실생활 작업 수행에는 여전히 한계가 있음을 보여줍니다.

학습자 관점 포인트

우리 팀 영향: 실제 웹 환경에서의 에이전트 성능을 객관적으로 측정할 수 있는 지표와 안전한 평가 프레임워크를 확보할 수 있습니다.
권장 액션: 실험
액션 근거: 현재 개발 중인 AI 에이전트의 실무 적용 가능성을 실제 웹 서비스 환경에서 검증하기에 적합한 벤치마크로 판단됩니다.

원문 링크

arXiv: https://arxiv.org/abs/2604.08523
Hugging Face Papers: https://huggingface.co/papers/2604.08523

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2604.06628] Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability [2604.07430] HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크