Skip to main content

논문 정보

  • 날짜: 2026-02-26
  • 카테고리: -
  • 우선순위 점수: 1.833

핵심 요약

ISO-Bench는 vLLM 및 SGLang과 같은 실제 LLM 서빙 프레임워크의 성능 최적화 작업을 수행하는 코딩 에이전트 평가 벤치마크입니다. 54개의 실제 PR 사례를 기반으로 실행 기반 지표와 LLM 기반 정성 지표를 결합하여 에이전트의 병목 지점 파악 및 패치 생성 능력을 측정합니다. 실험 결과, 에이전트들이 병목 현상은 잘 파악하지만 실제 작동하는 해결책을 구현하는 데는 어려움을 겪는 것으로 나타났습니다.

학습자 관점 포인트

  • 우리 팀 영향: 실제 서빙 프레임워크 최적화 사례를 포함하고 있어, 사내 추론 엔진 최적화 자동화 도구 개발 시 벤치마크로 활용 가치가 높습니다.
  • 권장 액션: 실험
  • 액션 근거: 에이전트의 모델 성능뿐만 아니라 스캐폴딩 구조의 중요성을 강조하고 있어, 자체 코딩 에이전트 설계 시 참조할 데이터가 풍부합니다.

원문 링크

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.