Skip to main content

논문 정보

  • 날짜: 2026-03-10
  • 카테고리: -
  • 우선순위 점수: 1.833

핵심 요약

법률, 금융, 의료 등 5개 전문 분야의 400개 과업을 통해 언어 모델 에이전트의 실무 능력을 평가하는 벤치마크입니다. 단순 정답 도출을 넘어 권위 있는 출처 검색, 갈등 정보 해결, 도메인 규칙 준수 등 복합적인 추론 과정을 루브릭 기반으로 측정합니다. 전문가 수준의 문제 구성을 통해 에이전트의 실질적인 업무 준비도와 신뢰성을 평가하는 통합 테스트베드를 제공합니다.

학습자 관점 포인트

  • 우리 팀 영향: 전문 도메인 지식이 필요한 에이전트 개발 시, 실제 비즈니스 환경과 유사한 복합 추론 성능을 객관적으로 검증하는 지표로 활용할 수 있습니다.
  • 권장 액션: 실험
  • 액션 근거: 기존의 정형화된 벤치마크보다 실무에 가까운 고난도 과업으로 구성되어 있어, 개발 중인 에이전트의 전문성 한계를 파악하기에 적합합니다.

원문 링크

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

문서 정보

  • Author: BAEM1N
  • Last updated: 2026-03-10