논문 정보
- 날짜:
2026-03-03 - 카테고리: -
- 우선순위 점수: 0.433
핵심 요약
본 논문은 모델의 너비와 깊이가 동시에 확장될 때 안정적인 학습과 하이퍼파라미터 전이를 보장하는 통합된 스펙트럼 μP 프레임워크를 제안합니다. 기존의 파편화된 μP 확장안들을 하나의 스펙트럼 조건으로 통합하여 가중치와 업데이트 노름의 스케일링 방식을 정의했습니다. GPT-2 스타일의 언어 모델 실험을 통해 다양한 옵티마이저 환경에서 안정적인 특징 학습과 하이퍼파라미터 전이 성능을 입증했습니다.학습자 관점 포인트
- 우리 팀 영향: 모델 규모 확장 시 하이퍼파라미터 재튜닝 비용을 절감하고 학습 안정성을 확보하기 위한 이론적 가이드라인으로 활용 가능합니다.
- 권장 액션: 도입 검토
- 액션 근거: 너비와 깊이의 동시 확장에 대한 통합 이론을 제시하며 기존 AdamW 외 다양한 옵티마이저로의 확장성을 갖추고 있어 실용적 가치가 높습니다.
원문 링크
- arXiv: https://arxiv.org/abs/2603.00541
- Hugging Face Papers: https://huggingface.co/papers/2603.00541

