DETR — Transformer 기반 객체 탐지
DETR(DEtection TRansformer)은 Transformer를 객체 탐지에 적용한 최초의 모델로, NMS 같은 수작업 후처리 없이 End-to-End로 탐지를 수행합니다.핵심 아이디어
기존 탐지 모델은 앵커 생성, NMS 등 많은 수작업 컴포넌트가 필요합니다. DETR은 이를 집합 예측(Set Prediction) 문제로 재정의하여, Transformer의 Attention 메커니즘으로 직접 객체 집합을 출력합니다. 헝가리안 매칭(Hungarian Matching)으로 예측과 정답을 일대일 매칭합니다.동작 방식
Object Query
DETR은 고정 개수(기본 100개)의 학습 가능한 Object Query를 사용합니다. 각 쿼리는 Transformer Decoder를 통과하며 하나의 객체를 담당하게 됩니다. 쿼리 수가 이미지 내 최대 탐지 가능 객체 수를 결정합니다.헝가리안 매칭
학습 시 N개의 예측과 M개의 정답(M < N) 사이의 최적 일대일 매칭을 헝가리안 알고리즘으로 찾습니다. 매칭되지 않은 예측은 “no object” 클래스로 학습됩니다.구현
RT-DETR: 실시간 DETR
RT-DETR(Real-Time DETR)은 DETR의 정확도를 유지하면서 실시간 추론을 달성한 모델입니다.| 비교 항목 | DETR | RT-DETR |
|---|---|---|
| 학습 수렴 | 느림 (500 에폭) | 빠름 (72 에폭) |
| 추론 속도 | 느림 | 실시간 가능 |
| NMS | 불필요 | 불필요 |
| 백본 | ResNet | HGNetV2, ResNet |
관련 기술 비교
| 비교 항목 | YOLO | Faster R-CNN | DETR | RT-DETR |
|---|---|---|---|---|
| 아키텍처 | CNN | CNN | CNN + Transformer | CNN + Transformer |
| 후처리 | NMS 필요 | NMS 필요 | 불필요 | 불필요 |
| 학습 속도 | 빠름 | 보통 | 느림 | 보통 |
| 추론 속도 | 매우 빠름 | 느림 | 느림 | 빠름 |
| 소형 객체 | 보통 | 좋음 | 약함 | 보통 |
DETR은 언제 사용하면 좋은가요?
DETR은 언제 사용하면 좋은가요?
NMS 튜닝이 어려운 밀집 객체 탐지나, End-to-End 파이프라인이 필요한 경우에 적합합니다. 실시간성이 필요하면 RT-DETR을, 최고 정확도가 필요하면 Co-DETR이나 DINO를 검토하세요.
DETR의 학습이 느린 이유는?
DETR의 학습이 느린 이유는?
Transformer의 Self-Attention이 수렴하려면 많은 에폭이 필요합니다. Deformable DETR은 Deformable Attention으로 이 문제를 개선하여 10배 빠른 수렴을 달성했습니다.
참고 논문
| 논문 | 학회/연도 | 링크 |
|---|---|---|
| End-to-End Object Detection with Transformers (DETR) | ECCV 2020 | arXiv:2005.12872 |
| Deformable DETR | ICLR 2021 | arXiv:2010.04159 |
| DETRs Beat YOLOs on Real-time (RT-DETR) | CVPR 2024 | arXiv:2304.08069 |

