정보 이론 기초
정보 이론(Information Theory)은 데이터의 불확실성과 정보량을 측정하는 프레임워크로, 결정 트리의 분할 기준과 특성 선택의 수학적 기반입니다.학습 목표
- 엔트로피(Entropy)의 의미와 계산 방법을 이해합니다.
- 정보 이득(Information Gain)이 결정 트리에서 어떻게 활용되는지 파악합니다.
- 지니 불순도(Gini Impurity)와 엔트로피의 차이를 이해합니다.
- KL 발산(Kullback-Leibler Divergence)의 개념을 학습합니다.
왜 중요한가
결정 트리(Decision Tree)는 매 분할에서 “어떤 특성으로, 어떤 값에서 나눌 것인가”를 결정합니다. 이 결정의 수학적 기준이 정보 이득(엔트로피 기반)과 지니 불순도입니다.핵심 개념
엔트로피 (Entropy)
데이터의 **불확실성(무질서도)**을 측정합니다. 값이 클수록 불확실성이 높습니다.| 확률 분포 | 엔트로피 | 의미 |
|---|---|---|
| [0.5, 0.5] | 1.0 | 최대 불확실성 — 예측 불가 |
| [0.9, 0.1] | 0.47 | 낮은 불확실성 — 대부분 한쪽 |
| [1.0, 0.0] | 0.0 | 불확실성 없음 — 완전히 예측 가능 |
정보 이득 (Information Gain)
특성으로 데이터를 분할했을 때 엔트로피가 얼마나 감소하는지 측정합니다.지니 불순도 (Gini Impurity)
엔트로피의 대안으로, 계산이 더 빠른 불순도 측정 방법입니다.| 기준 | 엔트로피 | 지니 불순도 |
|---|---|---|
| scikit-learn 기본값 | - | 기본값 (criterion='gini') |
| 계산 복잡도 | log 연산 필요 | 단순 곱셈 |
| 최대값 | 1.0 (이진 분류) | 0.5 (이진 분류) |
| 실무 성능 차이 | 거의 동일 | 거의 동일 |
KL 발산 (Kullback-Leibler Divergence)
두 확률 분포 사이의 차이를 측정합니다. 비대칭적이며, 값이 클수록 두 분포가 다릅니다.AI/ML에서의 활용
Q: 결정 트리에서 엔트로피와 지니 중 무엇을 써야 하나요?
Q: 결정 트리에서 엔트로피와 지니 중 무엇을 써야 하나요?
실무에서 성능 차이는 거의 없습니다. scikit-learn의 기본값인 지니 불순도를 먼저 사용하고, 필요시 엔트로피로 전환해서 비교하는 것을 권장합니다.
Q: 정보 이득은 특성 선택에도 사용되나요?
Q: 정보 이득은 특성 선택에도 사용되나요?
네. 특성과 타겟 변수 사이의 상호 정보량(Mutual Information)을 계산하여 유용한 특성을 선택할 수 있습니다. scikit-learn의
mutual_info_classif와 mutual_info_regression 함수가 이를 지원합니다.체크리스트
- 엔트로피의 의미를 직관적으로 설명할 수 있다
- 정보 이득의 계산 과정을 이해한다
- 지니 불순도와 엔트로피의 관계를 설명할 수 있다
- 결정 트리가 정보 이론을 어떻게 활용하는지 설명할 수 있다

