[2604.04913] A Frame is Worth One Token: Efficient Generative World Modeling with Delta Tokens

논문 정보

날짜: 2026-04-09
카테고리: -
우선순위 점수: 0.033

핵심 요약

DeltaTok은 연속된 프레임 간의 VFM 특징 차이를 단일 델타 토큰으로 인코딩하여 비디오 데이터를 1차원 시퀀스로 압축합니다. 이를 활용한 DeltaWorld 모델은 다중 가설 학습을 통해 단 한 번의 추론으로 다양하고 실감 나는 미래 상태를 생성할 수 있습니다. 기존 생성형 월드 모델 대비 파라미터 수는 35배 적고 연산량은 2,000배 절감하면서도 높은 예측 성능을 보여줍니다.

학습자 관점 포인트

우리 팀 영향: 비디오 데이터를 극도로 압축하면서도 생성적 특성을 유지하는 기법은 저비용 고효율 월드 모델 구축에 큰 기여를 할 수 있습니다.
권장 액션: 실험
액션 근거: 기존 모델 대비 압도적인 연산 효율성과 다중 미래 예측 능력을 갖추고 있어 실제 서비스 적용 가능성이 높기 때문입니다.

원문 링크

arXiv: https://arxiv.org/abs/2604.04913
Hugging Face Papers: https://huggingface.co/papers/2604.04913

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2604.05684] Improving Semantic Proximity in Information Retrieval through Cross-Lingual Alignment [2604.06912] Q-Zoom: Query-Aware Adaptive Perception for Efficient Multimodal Large Language Models

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크