Titanic EDA
Titanic 데이터셋은 데이터 분석과 ML의 대표적인 입문 프로젝트입니다. 1912년 타이타닉호 침몰 사건의 승객 데이터를 분석하여 생존에 영향을 미친 요인을 탐색합니다.학습 목표
- 실제 데이터셋으로 EDA 전체 과정을 수행할 수 있다
- 결측치 처리, 피처 분석, 시각화를 종합적으로 적용할 수 있다
- 분석 결과를 인사이트로 정리하고 보고할 수 있다
- ML 모델링을 위한 데이터 준비 과정을 이해한다
왜 중요한가
Titanic 프로젝트는 구조화된 데이터 분석의 모든 기본 요소를 포함합니다. 결측치, 범주형 변수, 수치형 변수, 이진 타겟이 모두 있어 EDA의 전 과정을 연습하기에 이상적입니다.Step 1: 데이터 로드와 이해
데이터 사전
| 변수 | 설명 | 타입 |
|---|---|---|
| survived | 생존 여부 (0=사망, 1=생존) | 타겟 |
| pclass | 객실 등급 (1=1등석, 2=2등석, 3=3등석) | 순서형 |
| sex | 성별 | 범주형 |
| age | 나이 | 수치형 |
| sibsp | 동반한 형제/배우자 수 | 수치형 |
| parch | 동반한 부모/자녀 수 | 수치형 |
| fare | 운임 | 수치형 |
| embarked | 탑승항 (C, Q, S) | 범주형 |
| class | 객실 등급 (문자열) | 범주형 |
| deck | 갑판 | 범주형 |
| alone | 혼자 탑승 여부 | 불리언 |
Step 2: 데이터 품질 점검
Step 3: 타겟 변수 분석
Step 4: 단변량 분석
Step 5: 이변량 분석 — 생존 요인 탐색
교차 분석
Step 6: 결측치 처리
Step 7: 인사이트 정리
ML로 확장하기
Titanic 데이터에서 성능을 더 올리려면?
Titanic 데이터에서 성능을 더 올리려면?
- Name에서 호칭(Mr, Mrs, Miss 등)을 추출하여 피처로 사용, 2) Cabin의 첫 글자(갑판)를 활용, 3) 가족 크기를 범주화(혼자/소가족/대가족), 4) 운임을 구간별로 비닝하면 성능이 향상됩니다.
체크리스트
- 데이터 로드 후 구조와 품질을 점검할 수 있다
- 타겟 변수의 분포를 확인하고 불균형을 파악할 수 있다
- 변수별 생존율을 비교하고 핵심 요인을 도출할 수 있다
- 결측치를 적절한 전략으로 처리할 수 있다
- 분석 결과를 구조화된 인사이트로 정리할 수 있다

