[2604.01591] ThinkTwice: Jointly Optimizing Large Language Models for Reasoning and Self-Refinement

논문 정보

날짜: 2026-04-08
카테고리: -
우선순위 점수: 1.5

핵심 요약

ThinkTwice는 GRPO를 기반으로 추론 문제 해결과 자가 수정을 동시에 최적화하는 2단계 프레임워크입니다. 별도의 비평 데이터 없이 정답 여부 보상만으로 학습하며, 초기에는 오류 수정에 집중하고 후기에는 정답 유지로 전이되는 학습 역학을 보여줍니다. Qwen3-4B 모델 기준 AIME 벤치마크에서 기존 GRPO 대비 자가 수정 후 성능이 11.5%p 향상되었습니다.

학습자 관점 포인트

우리 팀 영향: 추가적인 데이터 주석 없이도 자가 수정 능력을 강화하여 복잡한 수학적 추론 성능을 높일 수 있는 효율적인 RLVR 방법론을 제시합니다.
권장 액션: 실험
액션 근거: 별도의 비평 데이터셋 없이 정답 보상만으로 추론과 수정을 동시 학습하는 구조가 구현 효율성 측면에서 가치가 높습니다.

원문 링크

arXiv: https://arxiv.org/abs/2604.01591
Hugging Face Papers: https://huggingface.co/papers/2604.01591

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2604.05117] Watch Before You Answer: Learning from Visually Grounded Post-Training [2604.02648] GBQA: A Game Benchmark for Evaluating LLMs as Quality Assurance Engineers

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크