[2604.08455] KnowU-Bench: Towards Interactive, Proactive, and Personalized Mobile Agent Evaluation

논문 정보

날짜: 2026-04-10
카테고리: -
우선순위 점수: 2.9

핵심 요약

KnowU-Bench는 정적인 환경을 넘어 상호작용을 통해 사용자의 선호도를 추론하고 능동적으로 개입하는 모바일 에이전트를 평가하기 위한 벤치마크입니다. 안드로이드 에뮬레이션 환경에서 192개의 태스크를 제공하며, 에이전트가 직접 사용자 시뮬레이터와 대화하며 부족한 정보를 채우고 개입 여부를 결정하도록 설계되었습니다. 실험 결과, 기존의 우수한 모델들도 모호한 지시 상황에서의 선호도 추론 및 개입 시점 결정 능력은 50% 미만으로 나타나 큰 성능 격차를 보였습니다.

학습자 관점 포인트

우리 팀 영향: 개인화된 모바일 에이전트 개발 시 단순 GUI 조작을 넘어 사용자 의도 파악 및 능동적 개입 로직을 고도화하기 위한 평가 지표로 활용할 수 있습니다.
권장 액션: 실험
액션 근거: 기존 벤치마크와 달리 사용자 프로필을 숨긴 상태에서 로그 기반의 추론 능력을 측정하므로, 실제 서비스 환경에 가까운 에이전트 성능 검증이 가능하기 때문입니다.

원문 링크

arXiv: https://arxiv.org/abs/2604.08455
Hugging Face Papers: https://huggingface.co/papers/2604.08455

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2604.07430] HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents [2604.08224] Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크