[2603.03823] SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration

논문 정보

날짜: 2026-03-05
카테고리: -
우선순위 점수: 1.833

핵심 요약

SWE-CI는 정적인 버그 수정을 넘어 지속적 통합(CI) 루프를 기반으로 코드베이스의 장기적 유지보수 능력을 평가하는 새로운 벤치마크입니다. 실제 저장소의 평균 233일간의 진화 이력과 71개의 연속 커밋을 포함하는 100개의 태스크로 구성되어 에이전트의 반복적인 분석 및 코딩 능력을 측정합니다. 기존 SWE-bench와 달리 동적이고 장기적인 기능적 정확성과 유지보수성을 평가하는 데 중점을 둡니다.

학습자 관점 포인트

우리 팀 영향: 실제 개발 환경과 유사한 CI 루프 기반의 평가 체계를 통해 우리 팀의 코드 생성 에이전트가 가진 장기적 코드 관리 역량을 객관적으로 검증할 수 있습니다.
권장 액션: 실험
액션 근거: 기존의 단발성 코드 수정 성능 측정을 넘어 실제 서비스 운영 환경에 필요한 지속적 유지보수 능력을 확인하기 위해 실험이 필요합니다.

원문 링크

arXiv: https://arxiv.org/abs/2603.03823
Hugging Face Papers: https://huggingface.co/papers/2603.03823

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2603.04257] Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory [2603.03379] MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크