Skip to main content
분류, 탐지, 세그멘테이션을 넘어 다양한 CV 응용 태스크가 존재합니다. 각 태스크의 입출력과 활용 영역을 파악하고, 프로젝트에 적합한 기술을 선택합니다.
태스크입력출력활용 분야
포즈 추정이미지/영상키포인트 좌표동작 분석, 재활, 스포츠
OCR이미지텍스트 문자열문서 처리, 번호판 인식
깊이 추정단안 이미지깊이 맵3D 재구성, AR/VR
이미지 생성텍스트/노이즈생성 이미지콘텐츠 제작, 데이터 증강
비디오 이해영상 클립행동 레이블/궤적감시, 스포츠 분석
응용 태스크는 3대 핵심 태스크(분류, 탐지, 세그멘테이션) 중 하나 이상을 학습한 뒤 필요에 따라 선택적으로 학습합니다.

포즈 추정

YOLO-Pose와 MediaPipe로 인체 키포인트를 탐지합니다

OCR

PaddleOCR, EasyOCR, Donut으로 이미지 속 텍스트를 인식합니다

깊이 추정

MiDaS와 Depth Anything으로 단안 깊이를 추정합니다

이미지 생성

GAN과 Diffusion Model의 기본 원리를 이해합니다

비디오 이해

행동 인식, 객체 추적, Optical Flow의 개요를 파악합니다