| 태스크 | 입력 | 출력 | 활용 분야 |
|---|---|---|---|
| 포즈 추정 | 이미지/영상 | 키포인트 좌표 | 동작 분석, 재활, 스포츠 |
| OCR | 이미지 | 텍스트 문자열 | 문서 처리, 번호판 인식 |
| 깊이 추정 | 단안 이미지 | 깊이 맵 | 3D 재구성, AR/VR |
| 이미지 생성 | 텍스트/노이즈 | 생성 이미지 | 콘텐츠 제작, 데이터 증강 |
| 비디오 이해 | 영상 클립 | 행동 레이블/궤적 | 감시, 스포츠 분석 |
포즈 추정
YOLO-Pose와 MediaPipe로 인체 키포인트를 탐지합니다
OCR
PaddleOCR, EasyOCR, Donut으로 이미지 속 텍스트를 인식합니다
깊이 추정
MiDaS와 Depth Anything으로 단안 깊이를 추정합니다
이미지 생성
GAN과 Diffusion Model의 기본 원리를 이해합니다
비디오 이해
행동 인식, 객체 추적, Optical Flow의 개요를 파악합니다

