fillna()를 먼저 적용하는 문제가 아니라, 왜 비었는지를 먼저 파악하는 문제입니다.
같은 결측치 비율이라도 패턴이 다르면 선택해야 하는 전략이 달라집니다.
진단 기준
- 규모: 열별/행별 결측치 비율
- 집중 구간: 특정 기간, 특정 채널, 특정 고객군에 결측치가 몰리는지
- 동반 결측: 여러 컬럼이 동시에 비는 조합이 반복되는지
기본 진단 코드
패턴을 읽는 방법
- 랜덤 결측(MCAR) 가능성이 높으면 단순 대체가 유효할 수 있습니다.
- **그룹 의존 결측(MAR)**이면 그룹별 대체가 더 안전합니다.
- 비관측 요인 결측(MNAR) 의심 구간은 대체보다 별도 플래그 피처(
is_missing)를 함께 둡니다.

