Skip to main content
학습된 모델을 실제 환경에 배포하려면 추론 속도와 모델 크기를 최적화해야 합니다. 이 섹션에서는 ONNX/TensorRT 변환, 양자화(Quantization), 엣지 배포 전략을 다룹니다.
최적화 기법속도 향상정확도 변화난이도
ONNX 변환1.5~2x없음낮음
TensorRT3~5x거의 없음중간
INT8 양자화2~4x약간 감소중간
모델 경량화1~2x모델 의존높음
서버 배포는 ONNX/TensorRT부터, 모바일/엣지 배포는 엣지 배포부터 시작합니다. 속도와 정확도 사이의 균형이 필요하면 양자화를 검토합니다.

ONNX / TensorRT

PyTorch 모델을 ONNX/TensorRT로 변환하여 추론 속도를 높입니다

양자화

PTQ, QAT, INT8 양자화로 모델을 경량화합니다

엣지 배포

Jetson, 모바일 등 엣지 디바이스에 모델을 배포합니다