확률과 통계
확률과 통계(Probability & Statistics)는 데이터의 불확실성을 정량화하고, 데이터로부터 결론을 도출하는 ML의 핵심 기반입니다.학습 목표
- 확률의 기본 개념과 조건부 확률을 이해합니다.
- 주요 확률 분포(정규, 베르누이, 다항)의 특성을 파악합니다.
- 베이즈 정리(Bayes’ Theorem)의 원리와 ML 활용을 이해합니다.
- 기술 통계량과 가설 검정의 기초를 학습합니다.
왜 중요한가
ML 모델의 예측은 본질적으로 확률적입니다. Naive Bayes 분류기는 베이즈 정리를 직접 활용하고, 로지스틱 회귀는 클래스 소속 확률을 출력하며, GMM은 가우시안 혼합 분포를 가정합니다.핵심 개념
기술 통계 (Descriptive Statistics)
| 통계량 | 수식 | 의미 | ML 활용 |
|---|---|---|---|
| 평균 | (1/n)sum(x_i) | 중심 위치 | 결측치 대체, 정규화 |
| 분산 | (1/n)sum((x_i - mean)^2) | 흩어진 정도 | 특성 중요도, PCA |
| 공분산 | (1/n)sum((x_i - mean_x)(y_i - mean_y)) | 두 변수의 관계 | PCA, 상관분석 |
| 상관계수 | cov(X,Y) / (std_X * std_Y) | 선형 관계 강도 | 특성 선택, EDA |
확률 분포 (Probability Distribution)
| 분포 | 유형 | ML 활용 | 관련 알고리즘 |
|---|---|---|---|
| 정규 분포 | 연속 | 데이터 가정, 이상치 판별 | Gaussian NB, GMM |
| 베르누이 분포 | 이산 | 이진 분류 확률 | Bernoulli NB |
| 다항 분포 | 이산 | 텍스트 분류 (단어 빈도) | Multinomial NB |
| 포아송 분포 | 이산 | 이벤트 횟수 모델링 | Poisson 회귀 |
베이즈 정리 (Bayes’ Theorem)
**사전 확률(Prior)**과 **우도(Likelihood)**를 결합하여 **사후 확률(Posterior)**을 계산합니다.- P(A|B): 사후 확률 — B가 관측된 후 A의 확률
- P(B|A): 우도 — A가 참일 때 B를 관측할 확률
- P(A): 사전 확률 — B를 관측하기 전 A의 확률
- P(B): 증거 — B의 전체 확률
조건부 확률과 독립
중심극한정리 (Central Limit Theorem)
표본의 크기가 충분히 크면, 모집단의 분포와 관계없이 표본 평균은 정규 분포에 가까워집니다.AI/ML에서의 활용
| 개념 | ML 활용 | 관련 레퍼런스 |
|---|---|---|
| 베이즈 정리 | Naive Bayes 분류기 | Gaussian NB |
| 정규 분포 | 이상치 탐지, 가우시안 혼합 모델 | GMM |
| 최대우도추정(MLE) | 로지스틱 회귀 파라미터 추정 | 로지스틱 회귀 |
| 가설 검정 | 통계 모델 유의성 판단 | OLS |
Q: 확률과 통계의 차이는 무엇인가요?
Q: 확률과 통계의 차이는 무엇인가요?
확률은 알려진 모집단에서 특정 사건이 발생할 가능성을 계산합니다 (연역적). 통계는 관측된 데이터로부터 모집단의 특성을 추론합니다 (귀납적). ML은 주로 통계적 접근을 따릅니다.
Q: 베이즈 통계와 빈도주의 통계의 차이는?
Q: 베이즈 통계와 빈도주의 통계의 차이는?
빈도주의는 사전 확률 없이 데이터만으로 추론합니다 (p-값 기반). 베이즈 통계는 사전 지식을 결합합니다. ML에서는 정규화(regularization)가 베이즈적 사전 확률의 역할을 합니다.
체크리스트
- 평균, 분산, 표준편차의 의미를 설명할 수 있다
- 정규 분포의 특성을 설명할 수 있다
- 베이즈 정리를 적용하여 사후 확률을 계산할 수 있다
- 조건부 확률과 독립의 개념을 구분할 수 있다

