이변량/다변량 분석
이변량 분석(Bivariate Analysis)은 두 변수 간의 관계를, 다변량 분석(Multivariate Analysis)은 세 변수 이상의 복합 관계를 탐색합니다. 피처와 타겟의 관계를 파악하고, 다중공선성을 탐지하며, 데이터의 숨겨진 패턴을 발견합니다.학습 목표
- 수치형-수치형 변수의 상관관계를 분석할 수 있다
- 수치형-범주형 변수의 그룹별 차이를 시각화할 수 있다
- 범주형-범주형 변수의 교차 분석을 수행할 수 있다
- PCA로 고차원 데이터를 2D로 시각화할 수 있다
왜 중요한가
단변량 분석으로는 변수 간의 상호작용을 파악할 수 없습니다. 피처 선택, 다중공선성 제거, 교호작용 피처 생성 등 ML 모델의 성능을 좌우하는 의사결정이 이변량/다변량 분석에서 이루어집니다.수치형-수치형: 상관관계
pairplot으로 전체 관계 탐색
수치형-범주형: 그룹 비교
타겟 변수와의 관계
범주형-범주형: 교차 분석
다변량 분석: 조건부 시각화
PCA — 차원 축소 시각화
AI/ML에서의 활용
- 피처 선택: 타겟과 높은 상관을 가진 피처를 우선 선택합니다
- 다중공선성 제거: 피처 간 상관이 0.9 이상이면 하나를 제거합니다
- 교호작용 피처: 그룹 비교에서 차이가 큰 변수 조합으로 교호작용 피처를 생성합니다
- 차원 축소: PCA로 고차원 데이터의 구조를 파악하고 시각화합니다
pairplot이 너무 오래 걸릴 때는?
pairplot이 너무 오래 걸릴 때는?
변수가 많으면 핵심 변수 5개 이하로 제한하세요. 데이터가 많으면
sample(n=1000)으로 서브샘플링합니다. 빠른 대안으로 상관 행렬 히트맵을 먼저 확인하는 것도 좋습니다.체크리스트
- 상관 행렬을 계산하고 히트맵으로 시각화할 수 있다
- 그룹별 분포 차이를 박스플롯/바이올린플롯으로 비교할 수 있다
- 교차표를 생성하고 카이제곱 검정을 수행할 수 있다
- PCA로 고차원 데이터를 2D로 시각화할 수 있다

