[2603.24755] SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks

논문 정보

날짜: 2026-03-29
카테고리: -
우선순위 점수: 1.367

핵심 요약

SlopCodeBench는 코딩 에이전트가 반복적인 작업 수행 과정에서 코드 품질을 어떻게 저하시키는지 측정하는 벤치마크입니다. 실험 결과, 에이전트가 생성한 코드는 인간의 코드보다 중복도가 2.2배 높고 구조적 침식이 심하며, 반복될수록 품질이 지속적으로 악화되는 경향을 보였습니다. 11개 모델 중 어떤 에이전트도 전체 문제를 끝까지 해결하지 못했으며, 이는 현재 에이전트들이 장기적인 소프트웨어 설계 능력이 부족함을 시사합니다.

학습자 관점 포인트

우리 팀 영향: 에이전트 기반 코딩 도구 개발 시 단순 통과율뿐만 아니라 코드의 유지보수성과 구조적 건전성을 평가할 수 있는 지표 도입이 필요합니다.
권장 액션: 실험
액션 근거: 현재 개발 중인 코딩 에이전트의 장기적 성능 저하 문제를 진단하고 코드 품질 유지 능력을 정량적으로 측정하기 위해 해당 벤치마크 활용을 검토해야 합니다.

원문 링크

arXiv: https://arxiv.org/abs/2603.24755
Hugging Face Papers: https://huggingface.co/papers/2603.24755

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2603.24800] Calibri: Enhancing Diffusion Transformers via Parameter-Efficient Calibration [2603.24517] AVO: Agentic Variation Operators for Autonomous Evolutionary Search

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크