[2604.03922] ACES: Who Tests the Tests? Leave-One-Out AUC Consistency for Code Generation

논문 정보

날짜: 2026-04-08
카테고리: -
우선순위 점수: 2.567

핵심 요약

LLM이 생성한 테스트 코드의 신뢰성을 평가하기 위해, 특정 테스트가 나머지 테스트들의 합의된 순위와 얼마나 일치하는지 측정하는 LOO-AUC 지표를 제안합니다. 이를 기반으로 한 ACES 방법론은 정답 코드에 대한 사전 지식 없이도 테스트 결과 행렬만을 이용해 각 테스트의 가중치를 계산합니다. 실험 결과, 추가적인 오버헤드 없이 다양한 코드 생성 벤치마크에서 Pass@k 성능을 향상시켰습니다.

학습자 관점 포인트

우리 팀 영향: 코드 생성 모델의 결과물 선택 시, 별도의 검증 데이터 없이도 생성된 테스트의 신뢰도를 정교하게 평가하여 최종 코드 품질을 높일 수 있습니다.
권장 액션: 실험
액션 근거: 추가 연산 비용이 거의 없으면서도 기존의 단순 다수결 방식보다 높은 성능을 보여주므로 실제 코드 생성 파이프라인에 적용 가능성이 높습니다.

원문 링크

arXiv: https://arxiv.org/abs/2604.03922
Hugging Face Papers: https://huggingface.co/papers/2604.03922

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2604.04949] Learning to Retrieve from Agent Trajectories [2604.06170] Paper Circle: An Open-source Multi-agent Research Discovery and Analysis Framework

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크