Skip to main content
데이터 분석(Data Analysis)은 원시 데이터에서 의미 있는 패턴과 인사이트를 추출하는 과정입니다. 머신러닝 프로젝트의 성패는 모델 선택보다 데이터를 얼마나 잘 이해하고 준비하느냐에 달려 있습니다. 이 탭에서는 NumPy와 Pandas를 중심으로 데이터 조작, 시각화, 통계 분석, 탐색적 분석(EDA), 전처리까지 실무에 필요한 전 과정을 다룹니다.

학습 로드맵

선수 지식

항목수준참고
Python 문법변수, 조건문, 반복문, 함수Python 탭
자료구조리스트, 딕셔너리, 튜플Python 탭
파일 I/O파일 읽기/쓰기 기초Python 탭
NumPy/Pandas 소개기본 import와 간단한 사용Python 탭

도구 개요

도구용도이 탭에서 다루는 범위
NumPy수치 배열 연산배열 생성부터 선형대수, 성능 최적화까지
Pandas표 형태 데이터 조작Series/DataFrame, 전처리, 시계열, 성능
Matplotlib정적 시각화Figure/Axes, 분포, 서브플롯
Seaborn통계 시각화범주형, 분포, 관계형 차트
Plotly인터랙티브 시각화Express, 서브플롯, 애니메이션
SciPy통계 검정t-test, chi-square, ANOVA
scikit-learn전처리 파이프라인Scaler, Encoder, Pipeline
SQLAlchemyDB 연동엔진 생성, 쿼리 실행
데이터 분석이 처음이라면 01. NumPy 심화부터 순서대로 진행합니다. NumPy 경험이 있다면 02. Pandas 심화로 바로 넘어가도 좋습니다.

NumPy 심화

배열 연산, 브로드캐스팅, 선형대수, 성능 최적화

Pandas 심화

DataFrame 조작, 전처리, 시계열, 성능 튜닝

데이터 시각화

Matplotlib, Seaborn, Plotly로 데이터 시각화

통계 기초

기술통계, 확률분포, 가설검정, 상관분석

탐색적 데이터 분석

체계적 EDA 절차와 자동화 도구

데이터 전처리

결측치 대체, 인코딩, 스케일링, Pipeline

SQL과 데이터 분석

Pandas와 SQL 연동, SQLAlchemy

실무 프로젝트

Titanic EDA, 이커머스 분석, 시계열 EDA