[2603.24755] SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks

논문 정보

날짜: 2026-03-27
카테고리: -
우선순위 점수: 1.067

핵심 요약

SlopCodeBench는 코딩 에이전트가 반복적인 작업 수행 과정에서 코드 품질을 어떻게 저하시키는지 측정하는 벤치마크입니다. 실험 결과, 에이전트가 생성한 코드는 인간의 코드보다 중복도가 2.2배 높고 구조적 침식이 심하며, 반복될수록 품질이 지속적으로 악화되는 경향을 보였습니다. 현재의 에이전트들은 단일 테스트 통과에는 능숙할지라도 장기적인 소프트웨어 개발에 필요한 설계 규율이 부족함을 시사합니다.

학습자 관점 포인트

우리 팀 영향: 에이전트 기반 코딩 도구 도입 시 초기 성능뿐만 아니라 장기적인 코드 유지보수성 및 기술 부채 누적 가능성을 검토해야 합니다.
권장 액션: 실험
액션 근거: 자사 에이전트의 반복 작업 시 코드 품질 저하 수준을 정량적으로 측정하고 이를 개선하기 위한 프롬프트 전략을 검증할 필요가 있습니다.

원문 링크

arXiv: https://arxiv.org/abs/2603.24755
Hugging Face Papers: https://huggingface.co/papers/2603.24755

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2603.25562] Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes [2603.24800] Calibri: Enhancing Diffusion Transformers via Parameter-Efficient Calibration

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크