논문 정보
- 날짜:
2026-03-04 - 카테고리: -
- 우선순위 점수: 0.967
핵심 요약
Kiwi-Edit은 자연어 지시문과 참조 이미지를 동시에 활용하여 정밀한 비디오 편집을 수행하는 프레임워크입니다. 고품질 데이터 부족 문제를 해결하기 위해 합성 참조 스캐폴드를 활용한 대규모 데이터셋 RefVIE를 구축했습니다. 제안된 모델은 학습 가능한 쿼리와 잠재 시각 특징을 결합하여 지시문 이행 능력과 참조 이미지 충실도를 크게 향상시켰습니다.학습자 관점 포인트
- 우리 팀 영향: 참조 이미지 기반의 정밀한 비디오 스타일 및 객체 제어 기술을 통해 고품질 영상 생성 파이프라인의 제어력을 강화할 수 있습니다.
- 권장 액션: 실험
- 액션 근거: 공개된 RefVIE 데이터셋과 Kiwi-Edit 코드를 활용하여 기존 비디오 편집 모델 대비 제어 성능의 개선 여부를 직접 검증할 가치가 높습니다.
원문 링크
- arXiv: https://arxiv.org/abs/2603.02175
- Hugging Face Papers: https://huggingface.co/papers/2603.02175

