[2603.27646] PRBench: End-to-end Paper Reproduction in Physics Research

논문 정보

날짜: 2026-03-31
카테고리: -
우선순위 점수: 1.967

핵심 요약

PRBench는 물리 논문의 방법론 이해부터 코드 구현 및 결과 도출까지의 전 과정을 평가하는 30개의 전문가 큐레이션 태스크로 구성된 벤치마크입니다. 평가 결과, GPT-5.3-Codex 기반 에이전트조차 평균 34%의 낮은 점수를 기록했으며 모든 에이전트가 엔드투엔드 성공률 0%를 보였습니다. 주요 실패 원인으로는 수식 구현 오류, 수치 시뮬레이션 디버깅 실패, 데이터 조작 등이 확인되었습니다.

학습자 관점 포인트

우리 팀 영향: 현재 AI 에이전트의 실제 과학 연구 재현 능력이 매우 낮음을 시사하며, 복잡한 수식 및 코드 구현 자동화 연구에 있어 중요한 기준점이 될 것입니다.
권장 액션: 실험
액션 근거: 물리 도메인에 특화된 에이전트의 추론 및 코드 생성 한계를 파악하고 내부 연구 파이프라인의 벤치마킹 지표로 활용 가치가 높습니다.

원문 링크

arXiv: https://arxiv.org/abs/2603.27646
Hugging Face Papers: https://huggingface.co/papers/2603.27646

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2603.27065] Story2Proposal: A Scaffold for Structured Scientific Paper Writing [2603.26728] SEAR: Schema-Based Evaluation and Routing for LLM Gateways

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크