Skip to main content

머신러닝이란

머신러닝(Machine Learning)은 명시적으로 프로그래밍하지 않아도 데이터에서 패턴을 학습하여 예측이나 결정을 수행하는 컴퓨터 과학의 한 분야입니다.

학습 목표

  • 머신러닝의 정의와 핵심 원리를 설명할 수 있습니다.
  • 전통 프로그래밍과 머신러닝의 근본적인 차이를 구분할 수 있습니다.
  • AI, ML, DL의 관계와 각각의 범위를 이해합니다.
  • 머신러닝이 적합한 문제 유형을 판별할 수 있습니다.

왜 중요한가

데이터의 양과 복잡성이 폭발적으로 증가하면서, 사람이 직접 규칙을 작성하는 방식으로는 해결하기 어려운 문제가 급증했습니다. 스팸 필터, 이미지 인식, 추천 시스템, 자율주행 등 현대 기술의 핵심에는 머신러닝이 자리하고 있습니다.

핵심 개념

전통 프로그래밍 vs 머신러닝

두 접근법의 가장 큰 차이는 규칙을 누가 만드는가에 있습니다.
구분전통 프로그래밍머신러닝
입력데이터 + 규칙데이터 + 정답
출력결과모델(규칙)
규칙 생성개발자가 직접 작성알고리즘이 데이터에서 학습
유지보수규칙 수정 필요새 데이터로 재학습
적합한 상황규칙이 명확한 경우패턴이 복잡하거나 변화하는 경우

AI, ML, DL의 관계

  • 인공지능(Artificial Intelligence): 인간의 지능적 행동을 모방하는 기술의 총칭입니다. 규칙 기반 시스템, 전문가 시스템 등을 포함합니다.
  • 머신러닝(Machine Learning): AI의 하위 분야로, 데이터에서 스스로 규칙(패턴)을 학습하는 알고리즘입니다.
  • 딥러닝(Deep Learning): ML의 하위 분야로, 다층 신경망(Neural Network)을 사용하여 복잡한 표현을 학습합니다.

머신러닝이 잘 푸는 문제

머신러닝은 다음 조건을 만족할 때 효과적입니다.
  1. 패턴이 존재합니다: 데이터에 학습 가능한 규칙성이 있어야 합니다.
  2. 수학적으로 공식화하기 어렵습니다: 명시적 규칙 작성이 비현실적인 경우입니다.
  3. 충분한 데이터가 있습니다: 패턴을 일반화할 수 있을 만큼의 데이터가 필요합니다.
문제 유형예시ML 접근법
분류(Classification)스팸 메일 판별, 질병 진단로지스틱 회귀, 랜덤 포레스트
회귀(Regression)주택 가격 예측, 매출 예측선형 회귀, XGBoost
군집화(Clustering)고객 세분화, 문서 분류K-Means, DBSCAN
이상 탐지(Anomaly Detection)사기 거래 탐지, 장비 이상 감지Isolation Forest
차원 축소(Dimensionality Reduction)데이터 시각화, 노이즈 제거PCA, t-SNE

머신러닝이 적합하지 않은 경우

  • 규칙이 명확하고 단순한 경우: if-else 로직으로 충분하다면 ML은 과도합니다.
  • 데이터가 극히 부족한 경우: 수십 건의 데이터로는 일반화가 어렵습니다.
  • 완벽한 정확도가 요구되는 경우: ML 모델은 확률적 예측이므로 오차가 존재합니다.
  • 설명 가능성이 절대적으로 필요한 경우: 일부 모델(딥러닝 등)은 해석이 어렵습니다.

머신러닝의 핵심 용어

아래 용어는 이후 모든 문서에서 반복적으로 사용됩니다.
용어정의
특성(Feature)모델의 입력 변수 (열)
라벨(Label)예측하려는 목표 변수 (정답)
학습(Training)데이터에서 패턴을 추출하는 과정
추론(Inference)학습된 모델로 새 데이터를 예측하는 과정
과적합(Overfitting)학습 데이터에 지나치게 맞춰져 새 데이터에서 성능이 떨어지는 현상
일반화(Generalization)학습하지 않은 데이터에서도 좋은 성능을 내는 능력

AI/ML에서의 활용

머신러닝은 거의 모든 산업에서 활용되고 있습니다.
  • 금융: 신용 평가, 사기 탐지, 알고리즘 트레이딩
  • 의료: 질병 진단, 약물 발견, 의료 영상 분석
  • 이커머스: 상품 추천, 수요 예측, 가격 최적화
  • 제조: 품질 검사, 예지 정비, 공정 최적화
  • 자연어 처리: 번역, 감성 분석, 챗봇
처음에는 기본적인 통계(평균, 분산)와 직관적인 이해로 충분합니다. 알고리즘의 동작 원리를 깊이 이해하고 싶다면 수학 기초 섹션을 참고하세요. 선형대수, 확률, 미적분 순서로 필요한 만큼 학습하면 됩니다.
통계학은 데이터를 통해 모집단의 특성을 **추론(inference)**하는 데 집중합니다. 머신러닝은 새로운 데이터에 대한 예측(prediction) 성능을 극대화하는 데 집중합니다. 실무에서는 두 분야가 상호보완적으로 사용됩니다.
아닙니다. 정형 데이터(테이블 형태)에서는 여전히 전통적인 ML 알고리즘(XGBoost, LightGBM 등)이 딥러닝보다 우수한 경우가 많습니다. 문제 유형에 맞는 도구를 선택하는 것이 중요합니다.

체크리스트

  • 전통 프로그래밍과 머신러닝의 차이를 설명할 수 있다
  • AI, ML, DL의 포함 관계를 설명할 수 있다
  • 주어진 문제가 ML에 적합한지 판단할 수 있다
  • 분류, 회귀, 군집화의 차이를 구분할 수 있다

다음 문서