핵심 아이디어
인체의 주요 관절(어깨, 팔꿈치, 손목, 엉덩이, 무릎, 발목 등)을 키포인트(Keypoint)로 정의하고, 각 키포인트의 2D 좌표를 예측합니다. COCO 데이터셋 기준 17개 키포인트를 사용합니다.동작 방식
| 접근 방식 | 설명 | 속도 | 정확도 |
|---|---|---|---|
| Top-down | 사람 탐지 후 개별 포즈 추정 | 느림 (사람 수 비례) | 높음 |
| Bottom-up | 모든 키포인트 탐지 후 그룹화 | 빠름 (사람 수 무관) | 보통 |
구현
YOLO-Pose (Ultralytics)
MediaPipe (Google)
관련 기술 비교
| 비교 항목 | YOLO-Pose | MediaPipe | OpenPose |
|---|---|---|---|
| 속도 | 빠름 | 매우 빠름 | 느림 |
| 정확도 | 높음 | 보통 | 높음 |
| 다중 인물 | 지원 | 단일 인물 중심 | 지원 |
| GPU 필요 | 권장 | 불필요 (CPU OK) | 필수 |
| 추천 용도 | 서버/연구 | 모바일/엣지 | 연구 |
3D 포즈 추정도 가능한가요?
3D 포즈 추정도 가능한가요?
MediaPipe의 Pose 모듈은 33개의 3D 랜드마크를 제공합니다. 보다 정밀한 3D 포즈가 필요하면 MotionBERT나 WHAM 같은 전문 3D 포즈 모델을 검토합니다.
참고 논문
| 논문 | 학회/연도 | 링크 |
|---|---|---|
| OpenPose | IEEE T-PAMI 2019 | arXiv:1812.08008 |
| ViTPose | NeurIPS 2022 | arXiv:2204.12484 |

