비디오 이해
학습 목표
- 비디오 CV의 주요 태스크(행동 인식, 객체 추적, Optical Flow)를 구분할 수 있다
- 이미지 기반 CV와 비디오 CV의 차이를 이해한다
- 각 태스크의 대표 모델과 도구를 파악한다
왜 중요한가
실세계의 많은 CV 문제는 단일 이미지가 아닌 연속된 프레임(비디오)을 다룹니다. 감시 카메라의 이상 행동 감지, 스포츠 경기의 선수 추적, 자율주행의 움직임 예측 등은 시간 정보를 활용해야 합니다. 비디오 이해는 이미지 기반 CV에 시간 차원(Temporal Dimension)을 추가한 것입니다.주요 태스크
행동 인식 (Action Recognition)
영상 클립 내의 행동을 분류합니다. 이미지 분류의 비디오 버전입니다.| 모델 | 방식 | 특징 |
|---|---|---|
| I3D | 3D CNN | 시공간 특징 동시 학습 |
| SlowFast | 듀얼 경로 | 느린 경로(의미) + 빠른 경로(동작) |
| TimeSformer | Video Transformer | 시공간 Self-Attention |
| VideoMAE | Masked Autoencoder | 사전학습 효율 극대화 |
객체 추적 (Object Tracking)
영상에서 특정 객체를 프레임 간 추적하여 궤적(Trajectory)을 생성합니다.| 방식 | 설명 | 대표 도구 |
|---|---|---|
| SOT (Single Object) | 첫 프레임에서 지정한 객체 1개 추적 | SiamFC, OSTrack |
| MOT (Multi Object) | 여러 객체 동시 추적 | ByteTrack, BoT-SORT |
Optical Flow
연속된 두 프레임 간 픽셀의 이동을 벡터로 표현합니다. 움직임 분석의 기초입니다.이미지 CV vs 비디오 CV
| 비교 항목 | 이미지 CV | 비디오 CV |
|---|---|---|
| 입력 | 단일 프레임 | 프레임 시퀀스 |
| 차원 | 공간 (H, W) | 공간 + 시간 (T, H, W) |
| 계산량 | 보통 | 높음 |
| 핵심 추가 요소 | - | 시간 모델링, 추적 |
비디오 처리에 GPU가 꼭 필요한가요?
비디오 처리에 GPU가 꼭 필요한가요?
추론은 CPU로도 가능하지만 매우 느립니다. 실시간 처리를 위해서는 GPU가 필수이며, 프레임 수를 줄이거나(skip) 경량 모델을 사용하여 처리 속도를 확보할 수 있습니다.
YOLO만으로 객체 추적이 되나요?
YOLO만으로 객체 추적이 되나요?
YOLO는 프레임별 탐지만 수행하므로, 프레임 간 동일 객체를 연결하는 추적기(ByteTrack 등)가 필요합니다.
supervision 라이브러리가 YOLO + 추적기를 간편하게 연결해 줍니다.체크리스트
- 행동 인식, 객체 추적, Optical Flow의 차이를 안다
- 이미지 CV와 비디오 CV의 핵심 차이를 이해했다
- SOT와 MOT의 차이를 설명할 수 있다
- supervision + YOLO로 객체 추적 파이프라인을 구성할 수 있다

