[2603.06449] CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization

논문 정보

날짜: 2026-03-10
카테고리: -
우선순위 점수: 0.133

핵심 요약

CaTok은 1차원 인과적 이미지 토큰화를 위해 MeanFlow 디코더를 도입하여 자기회귀 모델의 시각 데이터 처리를 최적화합니다. REPA-A 정규화를 통해 인코더 특징을 비전 파운데이션 모델과 정렬함으로써 학습 안정성과 속도를 개선했습니다. ImageNet 재구성 실험에서 적은 학습 횟수로도 높은 FID와 PSNR 성능을 입증했습니다.

학습자 관점 포인트

우리 팀 영향: 자기회귀 기반 비전 생성 모델의 토큰화 효율성과 품질을 동시에 개선할 수 있는 새로운 구조적 대안을 제시합니다.
권장 액션: 실험
액션 근거: 기존 2D 패치 방식의 비인과적 한계를 극복하고 MeanFlow를 통한 효율적인 1D 토큰화 성능이 검증되었기 때문입니다.

원문 링크

arXiv: https://arxiv.org/abs/2603.06449
Hugging Face Papers: https://huggingface.co/papers/2603.06449

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2603.08708] FVG-PT: Adaptive Foreground View-Guided Prompt Tuning for Vision-Language Models [2603.02554] Generalizable Knowledge Distillation from Vision Foundation Models for Semantic Segmentation

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크