컴퓨터 비전 개요
학습 목표
- 컴퓨터 비전의 정의와 다루는 문제 영역을 설명할 수 있다
- 전통적 방법과 딥러닝 기반 방법의 차이를 비교할 수 있다
- CV의 발전 과정과 주요 전환점을 이해한다
- 현재 CV 기술이 적용되는 산업 분야를 파악할 수 있다
- 이 탭의 학습 경로와 선수 지식을 이해한다
왜 중요한가
컴퓨터 비전(Computer Vision, CV)은 기계가 이미지나 영상에서 의미 있는 정보를 추출하고 이해하는 AI 분야입니다. 자율주행 차량의 장애물 인식, 공장의 불량 검출, 의료 영상 진단, 보안 카메라의 이상 감지 등 산업 전반에서 핵심 기술로 자리잡고 있습니다. 2012년 AlexNet이 ImageNet 대회에서 압도적인 성능을 보인 이후, 딥러닝은 CV의 표준 방법론이 되었습니다. 이전에는 사람이 직접 특징(Feature)을 설계해야 했지만, 딥러닝은 데이터로부터 특징을 자동으로 학습합니다. 이 변화로 인해 CV의 접근성과 성능이 모두 크게 향상되었습니다.컴퓨터 비전이란
컴퓨터 비전은 디지털 이미지나 영상을 입력으로 받아, 장면의 내용을 이해하고 유용한 정보를 추출하는 기술입니다. CV가 다루는 핵심 질문은 다음과 같습니다.| 질문 | 대응 태스크 | 예시 |
|---|---|---|
| 이 이미지에 무엇이 있는가? | 분류(Classification) | 고양이/강아지 구분 |
| 어디에 있는가? | 탐지(Detection) | 보행자 위치 찾기 |
| 정확한 영역은? | 세그멘테이션(Segmentation) | 도로/인도 영역 분할 |
| 어떤 자세인가? | 포즈 추정(Pose Estimation) | 관절 위치 파악 |
| 무슨 글자인가? | OCR | 문서 텍스트 인식 |
| 얼마나 먼가? | 깊이 추정(Depth Estimation) | 3D 거리 측정 |
CV의 역사와 발전
전통적 컴퓨터 비전 (1960s~2012)
초기 CV는 사람이 설계한 특징 추출기(Feature Extractor)에 의존했습니다.| 시대 | 주요 기법 | 특징 |
|---|---|---|
| 1960s~1980s | 엣지 검출, 코너 검출 | 기하학적 형태 분석 |
| 1990s~2000s | SIFT, HOG, SURF | 수작업 특징 설계(Handcrafted Features) |
| 2000s~2012 | SVM + 특징 결합, DPM | 기계학습 + 수작업 특징 |
딥러닝 혁명 (2012~현재)
2012년 AlexNet의 ImageNet 우승은 CV의 패러다임을 완전히 바꾸었습니다.| 연도 | 모델/기술 | 의의 |
|---|---|---|
| 2012 | AlexNet | 딥러닝 CV의 시작, ImageNet 우승 |
| 2014 | VGGNet, GoogLeNet | 깊은 네트워크의 가능성 확인 |
| 2015 | ResNet | 잔차 연결(Residual Connection)로 초심층 학습 가능 |
| 2017 | Transformer | NLP에서 등장, CV 적용의 가능성 열림 |
| 2019 | EfficientNet | 효율적 모델 스케일링 |
| 2020 | ViT | Vision Transformer, CNN 없이 이미지 분류 |
| 2023 | SAM | 범용 세그멘테이션, Foundation Model 시대 |
| 2024 | SAM2, Depth Anything v2 | 비디오 세그멘테이션, 단안 깊이 추정 |
전통적 방법 vs 딥러닝
| 비교 항목 | 전통적 CV | 딥러닝 CV |
|---|---|---|
| 특징 추출 | 사람이 설계 (SIFT, HOG) | 데이터에서 자동 학습 |
| 데이터 요구량 | 적음 (수백~수천) | 많음 (수천~수백만) |
| 도메인 적응 | 재설계 필요 | 전이학습으로 빠른 적응 |
| 계산 비용 | 낮음 | 높음 (GPU 필수) |
| 해석 가능성 | 높음 | 상대적으로 낮음 |
| 성능 한계 | 복잡한 장면에서 한계 | 인간 수준 이상 가능 |
| 현재 위치 | 보조적 역할 | 주류 방법론 |
현재 CV 기술 동향
Foundation Model 시대
최근 CV는 대규모 사전학습 모델인 파운데이션 모델(Foundation Model) 중심으로 전환되고 있습니다.- SAM (Segment Anything): 프롬프트 기반 범용 세그멘테이션
- CLIP: 텍스트-이미지 연결, 제로샷 분류
- Stable Diffusion: 텍스트 기반 이미지 생성
- Depth Anything: 범용 깊이 추정
실무 적용 분야
| 분야 | 적용 사례 | 주요 태스크 |
|---|---|---|
| 제조업 | 불량 검출, 품질 검사 | 분류, 세그멘테이션 |
| 자율주행 | 보행자/차량 인식, 차선 인식 | 탐지, 세그멘테이션 |
| 의료 | X-ray/CT 분석, 병변 검출 | 분류, 세그멘테이션 |
| 보안 | 이상 행동 감지, 얼굴 인식 | 탐지, 분류 |
| 물류 | 바코드/문자 인식, 재고 관리 | OCR, 탐지 |
| 농업 | 작물 상태 모니터링, 병해 탐지 | 분류, 세그멘테이션 |
이 탭의 학습 전제 조건
이 탭은 DL 탭의 다음 내용을 학습한 분을 대상으로 합니다.| 선수 지식 | 필수 여부 | 관련 DL 탭 문서 |
|---|---|---|
| 신경망 기초, PyTorch | 필수 | DL: 신경망, PyTorch |
| CNN 아키텍처 (Conv, Pooling) | 필수 | DL: CNN |
| ResNet, EfficientNet 구조 | 필수 | DL: CNN 아키텍처 |
| 전이학습(Transfer Learning) 개념 | 필수 | DL: Transfer Learning |
| Attention, Transformer 기초 | 권장 | DL: Attention, Transformer |
CNN과 전이학습의 원리는 DL 탭에서 다루고, 이 탭에서는 실무 활용에 집중합니다. 예를 들어 ResNet의 잔차 연결이 무엇인지는 DL 탭, ResNet을 timm으로 Fine-tuning하는 방법은 이 탭에서 다룹니다.
주요 도구와 라이브러리
이 탭에서 사용하는 핵심 도구들입니다.| 도구 | 역할 | 주요 등장 섹션 |
|---|---|---|
| PyTorch | 딥러닝 프레임워크 | 전체 |
| timm | 사전학습 이미지 모델 허브 | 분류 |
| ultralytics | YOLO 시리즈 학습/추론 | 탐지, 세그멘테이션 |
| Albumentations | 이미지 증강 파이프라인 | 데이터 |
| OpenCV | 이미지/영상 I/O | 데이터, 전체 |
| supervision | 결과 시각화 | 시각화 |
NLP와 CV는 어떻게 다른가요?
NLP와 CV는 어떻게 다른가요?
NLP는 텍스트(1D 시퀀스)를 다루고, CV는 이미지(2D/3D 텐서)를 다룹니다. NLP의 토큰은 이산적(discrete)이지만, 이미지의 픽셀은 연속적(continuous)입니다. 최근에는 ViT처럼 이미지를 패치 시퀀스로 변환하여 Transformer를 적용하는 등 두 분야의 경계가 점차 흐려지고 있습니다.
GPU 없이도 CV를 학습할 수 있나요?
GPU 없이도 CV를 학습할 수 있나요?
간단한 실습과 추론은 CPU로도 가능하지만, 모델 학습에는 GPU가 거의 필수입니다. Google Colab의 무료 GPU를 활용하거나, 사전학습된 모델의 추론부터 시작하는 것을 추천합니다.
어떤 프로그래밍 언어를 사용하나요?
어떤 프로그래밍 언어를 사용하나요?
Python이 CV의 표준 언어입니다. PyTorch, OpenCV, ultralytics 등 주요 라이브러리가 모두 Python을 기본으로 지원합니다. C++은 배포 단계에서 성능 최적화가 필요할 때 선택적으로 사용합니다.
체크리스트
- 컴퓨터 비전의 정의와 다루는 문제를 설명할 수 있다
- 전통적 CV와 딥러닝 CV의 핵심 차이를 이해했다
- AlexNet 이후 CV의 주요 발전 흐름을 파악했다
- Foundation Model의 의미와 대표 사례를 안다
- 이 탭의 선수 지식 요구사항을 확인했다
- 주요 도구(PyTorch, timm, ultralytics)의 역할을 이해했다

