[2602.14337] LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces

논문 정보

날짜: 2026-02-25
카테고리: -
우선순위 점수: 1.533

핵심 요약

LongCLI-Bench는 기존 벤치마크의 짧은 작업 범위와 데이터 오염 문제를 해결하기 위해 설계된 장기적 CLI 에이전트 성능 평가 벤치마크입니다. 20개의 고품질 과업을 통해 요구사항 충족 및 회귀 방지를 측정하며, 단계별 점수 산출 방식을 도입하여 실행 실패 지점을 정밀하게 분석합니다. 실험 결과 최신 에이전트들도 20% 미만의 합격률을 보였으며, 초기 단계의 계획 및 실행 실패가 주요 병목 현상임이 확인되었습니다.

학습자 관점 포인트

우리 팀 영향: 복잡한 소프트웨어 엔지니어링 워크플로우를 수행하는 에이전트 개발 시, 초기 단계의 계획 오류를 줄이기 위한 인간-에이전트 협업 구조 설계의 중요성을 시사합니다.
권장 액션: 실험
액션 근거: 현재 개발 중인 에이전트의 장기적 계획 능력을 객관적으로 검증하고 실패 지점을 분석하기 위한 벤치마크 도구로 활용 가치가 높습니다.

원문 링크

arXiv: https://arxiv.org/abs/2602.14337
Hugging Face Papers: https://huggingface.co/papers/2602.14337

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2602.21193] On Data Engineering for Scaling LLM Terminal Capabilities [2602.21198] Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크