논문 정보
- 날짜:
2026-03-10 - 카테고리: -
- 우선순위 점수: 0.133
핵심 요약
CaTok은 1차원 인과적 이미지 토큰화를 위해 MeanFlow 디코더를 도입하여 자기회귀 모델의 시각 데이터 처리를 최적화합니다. REPA-A 정규화를 통해 인코더 특징을 비전 파운데이션 모델과 정렬함으로써 학습 안정성과 속도를 개선했습니다. ImageNet 재구성 실험에서 적은 학습 횟수로도 높은 FID와 PSNR 성능을 입증했습니다.학습자 관점 포인트
- 우리 팀 영향: 자기회귀 기반 비전 생성 모델의 토큰화 효율성과 품질을 동시에 개선할 수 있는 새로운 구조적 대안을 제시합니다.
- 권장 액션: 실험
- 액션 근거: 기존 2D 패치 방식의 비인과적 한계를 극복하고 MeanFlow를 통한 효율적인 1D 토큰화 성능이 검증되었기 때문입니다.
원문 링크
- arXiv: https://arxiv.org/abs/2603.06449
- Hugging Face Papers: https://huggingface.co/papers/2603.06449

