[2604.02289] Omni123: Exploring 3D Native Foundation Models with Limited 3D Data by Unifying Text to 2D and 3D Generation

논문 정보

날짜: 2026-04-05
카테고리: -
우선순위 점수: 0.267

핵심 요약

Omni123은 텍스트, 이미지, 3D 데이터를 단일 자기회귀 프레임워크 내의 이산 토큰으로 통합하여 생성하는 3D 네이티브 파운데이션 모델입니다. 부족한 3D 데이터를 보완하기 위해 풍부한 2D 데이터를 기하학적 사전 지식으로 활용하며, 정렬되지 않은 이종 데이터셋에서도 학습 가능한 교차 모달 훈련 패러다임을 제안합니다. 이를 통해 텍스트 기반 3D 생성 및 편집에서 의미적 일관성과 다중 뷰 기하학적 정밀도를 향상시켰습니다.

학습자 관점 포인트

우리 팀 영향: 2D와 3D를 통합된 토큰 공간에서 처리하는 방식은 향후 멀티모달 3D 월드 모델 구축을 위한 효율적인 데이터 활용 전략을 제시합니다.
권장 액션: 실험
액션 근거: 제한된 3D 데이터 환경에서 2D 데이터를 기하학적 제약 조건으로 활용하는 방법론의 유효성을 검증할 가치가 있습니다.

원문 링크

arXiv: https://arxiv.org/abs/2604.02289
Hugging Face Papers: https://huggingface.co/papers/2604.02289

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2604.01618] Tex3D: Objects as Attack Surfaces via Adversarial 3D Textures for Vision-Language-Action Models [2604.01666] DynaVid: Learning to Generate Highly Dynamic Videos using Synthetic Motion Data

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크