응용 태스크 - 배움 에이아이

분류, 탐지, 세그멘테이션을 넘어 다양한 CV 응용 태스크가 존재합니다. 각 태스크의 입출력과 활용 영역을 파악하고, 프로젝트에 적합한 기술을 선택합니다.

태스크	입력	출력	활용 분야
포즈 추정	이미지/영상	키포인트 좌표	동작 분석, 재활, 스포츠
OCR	이미지	텍스트 문자열	문서 처리, 번호판 인식
깊이 추정	단안 이미지	깊이 맵	3D 재구성, AR/VR
이미지 생성	텍스트/노이즈	생성 이미지	콘텐츠 제작, 데이터 증강
비디오 이해	영상 클립	행동 레이블/궤적	감시, 스포츠 분석

응용 태스크는 3대 핵심 태스크(분류, 탐지, 세그멘테이션) 중 하나 이상을 학습한 뒤 필요에 따라 선택적으로 학습합니다.

포즈 추정

YOLO-Pose와 MediaPipe로 인체 키포인트를 탐지합니다

PaddleOCR, EasyOCR, Donut으로 이미지 속 텍스트를 인식합니다

MiDaS와 Depth Anything으로 단안 깊이를 추정합니다

GAN과 Diffusion Model의 기본 원리를 이해합니다

행동 인식, 객체 추적, Optical Flow의 개요를 파악합니다