[2603.00541] Spectral Condition for μP under Width-Depth Scaling

논문 정보

날짜: 2026-03-03
카테고리: -
우선순위 점수: 0.433

핵심 요약

본 논문은 모델의 너비와 깊이가 동시에 확장될 때 안정적인 학습과 하이퍼파라미터 전이를 보장하는 통합된 스펙트럼 μP 프레임워크를 제안합니다. 기존의 파편화된 μP 확장안들을 하나의 스펙트럼 조건으로 통합하여 가중치와 업데이트 노름의 스케일링 방식을 정의했습니다. GPT-2 스타일의 언어 모델 실험을 통해 다양한 옵티마이저 환경에서 안정적인 특징 학습과 하이퍼파라미터 전이 성능을 입증했습니다.

학습자 관점 포인트

우리 팀 영향: 모델 규모 확장 시 하이퍼파라미터 재튜닝 비용을 절감하고 학습 안정성을 확보하기 위한 이론적 가이드라인으로 활용 가능합니다.
권장 액션: 도입 검토
액션 근거: 너비와 깊이의 동시 확장에 대한 통합 이론을 제시하며 기존 AdamW 외 다양한 옵티마이저로의 확장성을 갖추고 있어 실용적 가치가 높습니다.

원문 링크

arXiv: https://arxiv.org/abs/2603.00541
Hugging Face Papers: https://huggingface.co/papers/2603.00541

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2603.02049] WorldStereo: Bridging Camera-Guided Video Generation and Scene Reconstruction via 3D Geometric Memories [2603.01068] LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크