Skip to main content

논문 정보

  • 날짜: 2026-03-03
  • 카테고리: -
  • 우선순위 점수: 0.633

핵심 요약

SeeThrough3D는 텍스트-이미지 생성 시 객체 간의 가림 현상을 명확히 처리하기 위해 반투명 3D 박스 기반의 장면 표현(OSCR)을 제안합니다. 렌더링된 뷰포인트와 시각적 토큰을 통해 카메라 제어와 깊이 일관성을 확보하며, 마스크된 셀프 어텐션으로 객체 속성 혼합 문제를 해결합니다. 다양한 다중 객체 장면을 포함한 합성 데이터셋을 통해 학습되어 가려진 영역에 대한 추론 능력을 강화했습니다.

학습자 관점 포인트

  • 우리 팀 영향: 3D 레이아웃 기반 이미지 생성 시 객체 간 가림 관계와 카메라 시점 제어의 정밀도를 높이는 기술적 참고 자료가 될 수 있습니다.
  • 권장 액션: 실험
  • 액션 근거: 기존 레이아웃 제어 모델의 고질적인 문제인 객체 간 가림 현상과 속성 엉킴 문제를 해결하는 구체적인 아키텍처를 제시하고 있어 성능 검증이 가치가 있습니다.

원문 링크

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.