단변량 분석
단변량 분석(Univariate Analysis)은 한 번에 하나의 변수를 분석하여 분포 형태, 중심 경향, 이상치를 파악하는 과정입니다. 모든 EDA의 출발점으로, 각 변수의 특성을 이해해야 다변량 분석과 전처리 전략을 수립할 수 있습니다.학습 목표
- 수치형 변수의 분포를 히스토그램과 KDE로 파악할 수 있다
- 범주형 변수의 빈도와 비율을 시각화할 수 있다
- IQR 방법과 Z-score로 이상치를 탐지할 수 있다
- 변수 유형에 맞는 분석 방법을 선택할 수 있다
왜 중요한가
단변량 분석 결과는 전처리의 근거입니다. 편향된 분포는 로그 변환이 필요하고, 이상치는 모델에 큰 영향을 줍니다. 범주형 변수의 불균형은 샘플링 전략에 영향을 미칩니다.수치형 변수 분석
분포 시각화
분포 형태 판단
| 특성 | 판단 기준 | 전처리 제안 |
|---|---|---|
| 정규 분포 | 왜도 약 0, 종 모양 | StandardScaler |
| 오른쪽 치우침 | 왜도 > 1, 긴 오른쪽 꼬리 | 로그 변환, 제곱근 변환 |
| 왼쪽 치우침 | 왜도 < -1, 긴 왼쪽 꼬리 | 제곱 변환 |
| 다봉 분포 | 2개 이상의 봉우리 | 그룹 분리 후 분석 |
| 균등 분포 | 평평한 형태 | MinMaxScaler |
범주형 변수 분석
범주형 변수 체크포인트
이상치 탐지
IQR 방법
Z-score 방법
이상치 시각화
| 방법 | 기준 | 장점 | 단점 |
|---|---|---|---|
| IQR | Q1-1.5IQR ~ Q3+1.5IQR | 분포 가정 없음, 강건 | 비대칭 분포에서 한쪽만 감지 |
| Z-score | abs(Z) > 3 | 직관적, 표준화 기반 | 정규분포 가정 필요 |
| Modified Z | MAD 기반 | 이상치에 강건 | 계산 복잡 |
AI/ML에서의 활용
- 피처 전처리: 분포 형태에 따라 변환(로그, 제곱근)과 스케일링 전략을 결정합니다
- 이상치 처리: 이상치를 제거할지, 대체할지, 그대로 둘지 결정합니다
- 클래스 불균형: 타겟 변수의 불균형 비율을 파악하여 샘플링 전략을 결정합니다
- 피처 엔지니어링: 다봉 분포는 그룹 변수를 생성하고, 편향 분포는 비닝(binning)을 고려합니다
이상치는 항상 제거해야 하나요?
이상치는 항상 제거해야 하나요?
아닙니다. 이상치가 데이터 입력 오류인 경우 제거하지만, 실제로 극단적인 값(예: VIP 고객의 높은 구매액)인 경우 중요한 정보일 수 있습니다. 도메인 지식을 바탕으로 판단하세요.
체크리스트
- 수치형 변수의 분포를 시각화하고 형태를 판단할 수 있다
- 범주형 변수의 빈도와 비율을 분석할 수 있다
- IQR과 Z-score로 이상치를 탐지할 수 있다
- 분석 결과를 전처리 전략으로 연결할 수 있다

