[2603.07980] $OneMillion-Bench: How Far are Language Agents from Human Experts?

논문 정보

날짜: 2026-03-10
카테고리: -
우선순위 점수: 1.833

핵심 요약

법률, 금융, 의료 등 5개 전문 분야의 400개 과업을 통해 언어 모델 에이전트의 실무 능력을 평가하는 벤치마크입니다. 단순 정답 도출을 넘어 권위 있는 출처 검색, 갈등 정보 해결, 도메인 규칙 준수 등 복합적인 추론 과정을 루브릭 기반으로 측정합니다. 전문가 수준의 문제 구성을 통해 에이전트의 실질적인 업무 준비도와 신뢰성을 평가하는 통합 테스트베드를 제공합니다.

학습자 관점 포인트

우리 팀 영향: 전문 도메인 지식이 필요한 에이전트 개발 시, 실제 비즈니스 환경과 유사한 복합 추론 성능을 객관적으로 검증하는 지표로 활용할 수 있습니다.
권장 액션: 실험
액션 근거: 기존의 정형화된 벤치마크보다 실무에 가까운 고난도 과업으로 구성되어 있어, 개발 중인 에이전트의 전문성 한계를 파악하기에 적합합니다.

원문 링크

arXiv: https://arxiv.org/abs/2603.07980
Hugging Face Papers: https://huggingface.co/papers/2603.07980

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

문서 정보

Author: BAEM1N
Last updated: 2026-03-10

[2603.08316] SlowBA: An efficiency backdoor attack towards VLM-based GUI agents [2603.03872] Believe Your Model: Distribution-Guided Confidence Calibration

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

​문서 정보

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크

문서 정보