[2603.24755] SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks

논문 정보

날짜: 2026-03-28
카테고리: -
우선순위 점수: 1.333

핵심 요약

SlopCodeBench는 코딩 에이전트가 반복적인 작업 수행 과정에서 코드 품질을 어떻게 저하시키는지 측정하는 벤치마크입니다. 실험 결과, 에이전트가 생성한 코드는 인간의 코드보다 중복도가 2.2배 높고 구조적 침식이 심하며, 반복될수록 품질이 지속적으로 악화되는 경향을 보였습니다. 11개 모델 중 어떤 에이전트도 전체 문제를 끝까지 해결하지 못했으며, 최고 체크포인트 해결률은 17.2%에 불과했습니다.

학습자 관점 포인트

우리 팀 영향: 에이전트 기반 코딩 도구 도입 시 단기적인 기능 구현뿐만 아니라 장기적인 코드 유지보수성 및 기술 부채 누적 문제를 심각하게 고려해야 합니다.
권장 액션: 실험
액션 근거: 현재 개발 중인 에이전트의 반복 작업 성능을 객관적으로 측정하고 코드 품질 저하를 방지하는 프롬프트 전략을 검증하기 위해 도입이 필요합니다.

원문 링크

arXiv: https://arxiv.org/abs/2603.24755
Hugging Face Papers: https://huggingface.co/papers/2603.24755

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2603.24517] AVO: Agentic Variation Operators for Autonomous Evolutionary Search [2603.25562] Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크