[2602.21472] The Design Space of Tri-Modal Masked Diffusion Models

논문 정보

날짜: 2026-02-26
카테고리: -
우선순위 점수: 0.067

핵심 요약

텍스트, 이미지, 오디오를 동시에 다루는 최초의 3중 모달리티 마스크 확산 모델을 처음부터 사전 학습하여 제안합니다. 멀티모달 스케일링 법칙과 배치 크기 효과를 분석하여, 물리적 배치 크기와 논리적 배치 크기를 분리하는 새로운 SDE 기반 재매개변수화 기법을 도입했습니다. 30억 개의 파라미터 모델로 6.4조 개의 토큰을 학습하여 텍스트 생성, T2I, TTS 분야에서 통합된 설계의 성능을 입증했습니다.

학습자 관점 포인트

우리 팀 영향: 확산 모델 기반의 멀티모달 통합 아키텍처와 배치 크기 최적화 기법을 통해 효율적인 멀티모달 모델 학습 전략을 수립하는 데 기여할 수 있습니다.
권장 액션: 도입 검토
액션 근거: 이산 확산 모델을 활용한 3중 모달리티 통합 학습의 체계적인 분석과 최적화 방법론이 기술적으로 가치가 높기 때문입니다.

원문 링크

arXiv: https://arxiv.org/abs/2602.21472
Hugging Face Papers: https://huggingface.co/papers/2602.21472

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2602.20122] NanoKnow: How to Know What Your Language Model Knows [2602.18993] SeaCache: Spectral-Evolution-Aware Cache for Accelerating Diffusion Models

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크