[2604.06628] Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

논문 정보
핵심 요약
학습자 관점 포인트
원문 링크

논문 정보

날짜: 2026-04-10
카테고리: -
우선순위 점수: 4.233

핵심 요약

추론 SFT가 암기만 한다는 기존 통념과 달리, 최적화 과정과 데이터 품질 및 모델 역량에 따라 도메인 간 일반화가 가능함을 입증했습니다. 학습 초기 성능이 하락했다가 회복되는 ‘dip-and-recovery’ 패턴을 발견하여 충분한 학습의 중요성을 강조했습니다. 검증된 긴 CoT 데이터는 일반화에 기여하지만, 추론 능력 향상과 동시에 안전성 저하라는 비대칭적 결과가 나타남을 확인했습니다.

학습자 관점 포인트

우리 팀 영향: 추론 모델 학습 시 조기 중단보다는 충분한 최적화가 필요하며, 추론 성능 향상에 따른 안전성 저하 문제를 별도로 관리해야 합니다.
권장 액션: 실험
액션 근거: 제시된 dip-and-recovery 패턴과 안전성 저하 현상이 실제 내부 추론 모델 학습 과정에서도 발생하는지 검증이 필요하기 때문입니다.

원문 링크

arXiv: https://arxiv.org/abs/2604.06628
Hugging Face Papers: https://huggingface.co/papers/2604.06628

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2604.08377] SkillClaw: Let Skills Evolve Collectively with Agentic Evolver [2604.08546] When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models

00. 시작하기

01. AI IDE

02. IDE 확장/플러그인

03. CLI/멀티 플랫폼

04. 에이전트 하네스

05. AI 웹 빌더

06. 워크플로우 플랫폼

08. 일일 리뷰 리포트

07. 논문 트렌드

[2604.06628] Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크

00. 시작하기

01. AI IDE

02. IDE 확장/플러그인

03. CLI/멀티 플랫폼

04. 에이전트 하네스

05. AI 웹 빌더

06. 워크플로우 플랫폼

08. 일일 리뷰 리포트

07. 논문 트렌드

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크