[2603.27164] daVinci-LLM:Towards the Science of Pretraining

논문 정보

날짜: 2026-04-01
카테고리: -
우선순위 점수: 2.533

핵심 요약

daVinci-LLM은 산업 규모의 자원과 학술적 자유를 결합하여 사전 학습의 과학적 방법론을 탐구한 연구입니다. 3B 파라미터 모델을 8T 토큰으로 학습시키며 데이터 처리 깊이와 도메인별 포화 역학 등 200개 이상의 통제 변수 실험을 수행했습니다. 데이터 처리 프레임워크인 Data Darwinism과 2단계 적응형 커리큘럼을 통해 사전 학습 과정의 체계적인 지식을 공유합니다.

학습자 관점 포인트

우리 팀 영향: 사전 학습 데이터의 처리 깊이와 도메인 비중 조절에 대한 구체적인 실험 데이터는 우리 팀의 자체 모델 학습 효율화 전략 수립에 직접적인 참고가 될 수 있습니다.
권장 액션: 실험
액션 근거: 공개된 데이터 처리 파이프라인과 200여 개의 실험 결과는 리소스 낭비를 줄이고 최적의 사전 학습 경로를 설계하는 데 실질적인 가이드라인을 제공하기 때문입니다.

원문 링크

arXiv: https://arxiv.org/abs/2603.27164
Hugging Face Papers: https://huggingface.co/papers/2603.27164

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2603.27538] LongCat-Next: Lexicalizing Modalities as Discrete Tokens [2603.28088] GEMS: Agent-Native Multimodal Generation with Memory and Skills

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크