[2604.02289] Omni123: Exploring 3D Native Foundation Models with Limited 3D Data by Unifying Text to 2D and 3D Generation

논문 정보

날짜: 2026-04-03
카테고리: -
우선순위 점수: 0.067

핵심 요약

Omni123은 텍스트, 이미지, 3D 데이터를 단일 자기회귀 프레임워크 내에서 이산 토큰으로 통합한 3D 네이티브 파운데이션 모델입니다. 부족한 3D 데이터를 보완하기 위해 풍부한 2D 데이터를 기하학적 사전 지식으로 활용하며, 데이터 간 완전한 정렬 없이도 학습 가능한 인터리브 X-to-X 학습 패러다임을 제안합니다. 이를 통해 텍스트 기반 3D 생성 및 편집에서 의미론적 일관성과 다중 뷰 기하학적 일관성을 동시에 확보했습니다.

학습자 관점 포인트

우리 팀 영향: 2D 데이터를 3D 생성의 기하학적 제약 조건으로 활용하는 통합 토큰화 방식은 데이터 부족 문제를 해결하는 효율적인 아키텍처 설계에 참고가 될 수 있습니다.
권장 액션: 실험
액션 근거: 기존의 최적화 기반 파이프라인 대신 자기회귀 모델을 통한 직접적인 3D 생성이 일관성 측면에서 유의미한 성능 향상을 보이는지 검증이 필요합니다.

원문 링크

arXiv: https://arxiv.org/abs/2604.02289
Hugging Face Papers: https://huggingface.co/papers/2604.02289

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2603.27666] Gated Condition Injection without Multimodal Attention: Towards Controllable Linear-Attention Transformers [2604.00829] LinguDistill: Recovering Linguistic Ability in Vision- Language Models via Selective Cross-Modal Distillation

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크