Skip to main content

논문 정보

  • 날짜: 2026-03-10
  • 카테고리: -
  • 우선순위 점수: 0.133

핵심 요약

CaTok은 1차원 인과적 이미지 토큰화를 위해 MeanFlow 디코더를 도입하여 자기회귀 모델의 시각 데이터 처리를 최적화합니다. REPA-A 정규화를 통해 인코더 특징을 비전 파운데이션 모델과 정렬함으로써 학습 안정성과 속도를 개선했습니다. ImageNet 재구성 실험에서 적은 학습 횟수로도 높은 FID와 PSNR 성능을 입증했습니다.

학습자 관점 포인트

  • 우리 팀 영향: 자기회귀 기반 비전 생성 모델의 토큰화 효율성과 품질을 동시에 개선할 수 있는 새로운 구조적 대안을 제시합니다.
  • 권장 액션: 실험
  • 액션 근거: 기존 2D 패치 방식의 비인과적 한계를 극복하고 MeanFlow를 통한 효율적인 1D 토큰화 성능이 검증되었기 때문입니다.

원문 링크

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.