논문 정보
- 날짜:
2026-04-05 - 카테고리: -
- 우선순위 점수: 0.1
핵심 요약
LOME는 이미지, 텍스트, 프레임별 인간 동작을 입력받아 사실적인 인간-사물 상호작용 비디오를 생성하는 1인칭 시점 월드 모델입니다. 사전 학습된 비디오 생성 모델을 미세 조정하여 정밀한 동작 가이드를 주입함으로써 액체 따르기와 같은 복잡한 물리적 상호작용을 구현합니다. 기존의 3D 모델링이나 시뮬레이션 환경의 한계를 넘어 높은 일반화 성능과 동작 제어 정확도를 보여줍니다.학습자 관점 포인트
- 우리 팀 영향: 정밀한 손 동작과 사물 간의 물리적 상호작용을 비디오 기반으로 학습함으로써 로봇 조작 훈련 및 AR/VR 콘텐츠 생성 기술에 기여할 수 있습니다.
- 권장 액션: 실험
- 액션 근거: 기존 I2V 모델보다 정밀한 동작 제어가 가능하며 물리적 상호작용 재현 능력이 우수하여 로봇 학습 데이터 증강 가능성을 확인해볼 가치가 있습니다.
원문 링크
- arXiv: https://arxiv.org/abs/2603.27449
- Hugging Face Papers: https://huggingface.co/papers/2603.27449

