[2604.09201] CT-1: Vision-Language-Camera Models Transfer Spatial Reasoning Knowledge to Camera-Controllable Video Generation

논문 정보

날짜: 2026-04-13
카테고리: -
우선순위 점수: 0.6

핵심 요약

CT-1은 텍스트 프롬프트로부터 정확한 카메라 궤적을 추정하여 비디오 생성 모델에 전달하는 Vision-Language-Camera 모델입니다. Wavelet 기반 정규화 손실 함수를 도입하여 복잡한 카메라 이동 분포를 학습하며, 4,700만 프레임 규모의 CT-200K 데이터셋을 구축했습니다. 실험 결과 기존 방법 대비 카메라 제어 정확도를 25.7% 향상시켰습니다.

학습자 관점 포인트

우리 팀 영향: 텍스트 기반의 정밀한 카메라 제어 기술을 통해 자동화된 영상 제작 파이프라인의 효율성을 높일 수 있습니다.
권장 액션: 실험
액션 근거: 기존의 수동적인 카메라 파라미터 입력 방식 대신 텍스트 기반 제어의 정확도를 크게 개선했다는 점에서 기술적 검증 가치가 높습니다.

원문 링크

arXiv: https://arxiv.org/abs/2604.09201
Hugging Face Papers: https://huggingface.co/papers/2604.09201

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2604.08118] Initialisation Determines the Basin: Efficient Codebook Optimisation for Extreme LLM Quantization [2604.09450] ECHO: Efficient Chest X-ray Report Generation with One-step Block Diffusion

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크