데이터 분석
데이터 분석(Data Analysis)은 원시 데이터에서 의미 있는 패턴과 인사이트를 추출하는 과정입니다. 머신러닝 프로젝트의 성패는 모델 선택보다 데이터를 얼마나 잘 이해하고 준비하느냐 에 달려 있습니다. 이 탭에서는 NumPy와 Pandas를 중심으로 데이터 조작, 시각화, 통계 분석, 탐색적 분석(EDA), 전처리까지 실무에 필요한 전 과정을 다룹니다.
학습 로드맵
선수 지식
항목 수준 참고 Python 문법 변수, 조건문, 반복문, 함수 Python 탭 자료구조 리스트, 딕셔너리, 튜플 Python 탭 파일 I/O 파일 읽기/쓰기 기초 Python 탭 NumPy/Pandas 소개 기본 import와 간단한 사용 Python 탭
도구 개요
도구 용도 이 탭에서 다루는 범위 NumPy 수치 배열 연산 배열 생성부터 선형대수, 성능 최적화까지 Pandas 표 형태 데이터 조작 Series/DataFrame, 전처리, 시계열, 성능 Matplotlib 정적 시각화 Figure/Axes, 분포, 서브플롯 Seaborn 통계 시각화 범주형, 분포, 관계형 차트 Plotly 인터랙티브 시각화 Express, 서브플롯, 애니메이션 SciPy 통계 검정 t-test, chi-square, ANOVA scikit-learn 전처리 파이프라인 Scaler, Encoder, Pipeline SQLAlchemy DB 연동 엔진 생성, 쿼리 실행
데이터 분석이 처음이라면 01. NumPy 심화 부터 순서대로 진행하세요. NumPy 경험이 있다면 02. Pandas 심화 로 바로 넘어가도 좋습니다.
NumPy 심화 배열 연산, 브로드캐스팅, 선형대수, 성능 최적화
Pandas 심화 DataFrame 조작, 전처리, 시계열, 성능 튜닝
데이터 시각화 Matplotlib, Seaborn, Plotly로 데이터 시각화
통계 기초 기술통계, 확률분포, 가설검정, 상관분석
탐색적 데이터 분석 체계적 EDA 절차와 자동화 도구
데이터 전처리 결측치 대체, 인코딩, 스케일링, Pipeline
SQL과 데이터 분석 Pandas와 SQL 연동, SQLAlchemy
실무 프로젝트 Titanic EDA, 이커머스 분석, 시계열 EDA