[2602.23359] SeeThrough3D: Occlusion Aware 3D Control in Text-to-Image Generation

논문 정보

날짜: 2026-03-03
카테고리: -
우선순위 점수: 0.633

핵심 요약

SeeThrough3D는 텍스트-이미지 생성 시 객체 간의 가림 현상을 명확히 처리하기 위해 반투명 3D 박스 기반의 장면 표현(OSCR)을 제안합니다. 렌더링된 뷰포인트와 시각적 토큰을 통해 카메라 제어와 깊이 일관성을 확보하며, 마스크된 셀프 어텐션으로 객체 속성 혼합 문제를 해결합니다. 다양한 다중 객체 장면을 포함한 합성 데이터셋을 통해 학습되어 가려진 영역에 대한 추론 능력을 강화했습니다.

학습자 관점 포인트

우리 팀 영향: 3D 레이아웃 기반 이미지 생성 시 객체 간 가림 관계와 카메라 시점 제어의 정밀도를 높이는 기술적 참고 자료가 될 수 있습니다.
권장 액션: 실험
액션 근거: 기존 레이아웃 제어 모델의 고질적인 문제인 객체 간 가림 현상과 속성 엉킴 문제를 해결하는 구체적인 아키텍처를 제시하고 있어 성능 검증이 가치가 있습니다.

원문 링크

arXiv: https://arxiv.org/abs/2602.23359
Hugging Face Papers: https://huggingface.co/papers/2602.23359

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2603.00585] MicroVerse: A Preliminary Exploration Toward a Micro-World Simulation [2603.02049] WorldStereo: Bridging Camera-Guided Video Generation and Scene Reconstruction via 3D Geometric Memories

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크