특성 공학 (Feature Engineering)
특성 공학(Feature Engineering)은 원본 데이터에서 모델이 패턴을 더 잘 학습할 수 있도록 새로운 특성을 생성하거나 기존 특성을 변환하는 과정입니다.학습 목표
- 수치형 변수에서 파생 특성을 생성할 수 있습니다.
- 날짜/시간 데이터에서 유용한 특성을 추출할 수 있습니다.
- 다항식 특성과 상호작용 특성을 만들 수 있습니다.
- 도메인 지식 기반 특성 생성의 원리를 이해합니다.
왜 중요한가
좋은 특성은 간단한 모델로도 높은 성능을 달성하게 합니다. Kaggle 대회에서 상위 입상자들이 가장 많은 시간을 투자하는 영역이 특성 공학입니다.핵심 개념
수치형 특성 변환
날짜/시간 특성 추출
다항식 및 상호작용 특성
텍스트 기반 특성
집계 특성 (Group-based)
AI/ML에서의 활용
| 특성 유형 | 예시 | 관련 알고리즘 |
|---|---|---|
| 다항식 특성 | 면적^2, 면적 x 방수 | 다항 회귀 |
| 로그 변환 | log(가격) | 모든 회귀 모델 |
| 구간화 | 가격 등급(저/중/고) | 결정 트리 계열 |
| 집계 통계 | 지역 평균 가격 | 모든 모델 |
Q: 특성을 많이 만들면 항상 좋은가요?
Q: 특성을 많이 만들면 항상 좋은가요?
아닙니다. 불필요한 특성은 과적합을 유발하고 학습 시간을 증가시킵니다. 특성 공학 후에는 반드시 특성 선택을 수행하여 유용한 특성만 남겨야 합니다.
Q: 도메인 지식이 없으면 특성 공학을 못 하나요?
Q: 도메인 지식이 없으면 특성 공학을 못 하나요?
기본적인 수학적 변환(로그, 다항식, 비율)은 도메인 지식 없이도 적용할 수 있습니다. 그러나 가장 효과적인 특성은 해당 분야의 도메인 지식에서 나옵니다.
체크리스트
- 비율, 차이, 집계 등 수치형 파생 특성을 생성할 수 있다
- 날짜 데이터에서 유용한 특성을 추출할 수 있다
- PolynomialFeatures로 다항식 특성을 만들 수 있다
- 그룹 기반 집계 특성을 생성할 수 있다

