Skip to main content

논문 정보

  • 날짜: 2026-03-26
  • 카테고리: -
  • 우선순위 점수: 0.067

핵심 요약

비디오 확산 모델(VDM)의 메모리 및 연산 효율을 높이기 위해 NVFP4와 INT8을 혼합한 동적 양자화 프레임워크를 제안합니다. 블록의 입출력 차이와 양자화 민감도 사이의 선형 상관관계를 활용하여, 안정적인 레이어에는 NVFP4를, 변동성이 큰 레이어에는 INT8을 동적으로 할당합니다. 또한 시간적 중복성을 활용한 Temporal Delta Cache(TDC)를 통해 불필요한 연산을 생략하여 가속화를 달성했습니다.

학습자 관점 포인트

  • 우리 팀 영향: 비디오 생성 모델의 추론 속도를 1.92배 향상시키고 메모리 사용량을 3.32배 절감하여 온디바이스 및 실시간 서비스 배포 가능성을 높입니다.
  • 권장 액션: 실험
  • 액션 근거: 동적 양자화와 캐싱 기법을 통한 성능 최적화 수치가 구체적이며, 비디오 DiT 모델의 고비용 추론 문제를 해결할 실무적 가치가 높기 때문입니다.

원문 링크

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.