[2603.14366] Representation Alignment for Just Image Transformers is not Easier than You Think

논문 정보

날짜: 2026-03-28
카테고리: -
우선순위 점수: 0.2

핵심 요약

픽셀 공간 확산 모델인 JiT에서 기존 REPA 방식이 정보 비대칭으로 인해 성능 저하와 다양성 붕괴를 초래함을 발견했습니다. 이를 해결하기 위해 마스크드 트랜스포머 어댑터를 활용하여 정렬 대상을 변환하는 PixelREPA를 제안했습니다. 실험 결과, ImageNet 256x256 환경에서 2배 빠른 수렴 속도와 향상된 FID 및 IS 수치를 기록했습니다.

학습자 관점 포인트

우리 팀 영향: 사전 학습된 토크나이저 없이 픽셀 공간에서 직접 확산 모델을 학습시킬 때, 효율적인 정렬 기법을 통해 학습 속도와 품질을 동시에 개선할 수 있습니다.
권장 액션: 실험
액션 근거: 기존 REPA의 한계를 극복하고 픽셀 기반 확산 모델의 학습 효율을 2배 이상 높였다는 점에서 재현 및 성능 검증 가치가 높습니다.

원문 링크

arXiv: https://arxiv.org/abs/2603.14366
Hugging Face Papers: https://huggingface.co/papers/2603.14366

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2603.25744] MuRF: Unlocking the Multi-Scale Potential of Vision Foundation Models [2603.25702] S2D2: Fast Decoding for Diffusion LLMs via Training-Free Self-Speculation

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크