Skip to main content

ML 용어 사전

머신러닝 학습 과정에서 반복적으로 등장하는 핵심 용어를 정리했습니다. 각 용어의 정의, 관련 문서 링크, 그리고 실무에서의 활용 맥락을 함께 제공합니다.

학습 목표

  • ML 문서와 논문에서 자주 등장하는 용어의 의미를 정확히 파악할 수 있습니다.
  • 한국어와 영문 용어를 모두 이해하고 사용할 수 있습니다.
  • 용어 간의 관계를 이해하여 개념적 체계를 구축합니다.

기본 개념

데이터에서 학습한 패턴을 수학적으로 표현한 것입니다. 학습이 완료되면 새로운 데이터에 대한 예측을 수행합니다. 예: 선형 회귀 모델의 가중치(w)와 절편(b).
모델의 입력으로 사용되는 개별 변수입니다. 데이터셋의 열(column)에 해당합니다. 예: 주택 가격 예측에서 면적, 방 수, 위치 등. → 특성 공학
모델이 예측해야 하는 정답 변수입니다. 지도학습에서만 존재합니다. 예: 스팸 여부(0/1), 주택 가격(연속값).
데이터셋의 개별 관측치입니다. 데이터셋의 행(row)에 해당합니다.
학습 전에 사람이 설정하는 모델의 외부 매개변수입니다. 학습률, 트리 깊이, 정규화 강도 등이 해당합니다. → 하이퍼파라미터 튜닝
학습 과정에서 데이터로부터 자동으로 결정되는 모델의 내부 매개변수입니다. 가중치(weight), 편향(bias) 등이 해당합니다.
모델의 예측과 실제 값 사이의 오차를 수치로 측정하는 함수입니다. 학습의 목표는 이 값을 최소화하는 것입니다. → 최적화
전체 학습 데이터셋을 한 번 순회하는 것을 1 에포크라 합니다. 보통 여러 에포크에 걸쳐 학습합니다.
한 번의 가중치 갱신에 사용되는 샘플 수입니다. 전체 데이터를 한번에 사용하면 배치 학습, 일부만 사용하면 미니배치 학습입니다.

학습 유형

입력(X)과 정답(y)의 쌍으로 학습하여 새로운 입력에 대한 출력을 예측하는 방식입니다. 분류와 회귀가 해당합니다. → 학습 유형
정답 없이 입력 데이터만으로 데이터의 구조나 패턴을 발견하는 방식입니다. 군집화, 차원 축소가 해당합니다. → 학습 유형
에이전트가 환경과 상호작용하면서 보상을 최대화하는 행동 전략을 학습하는 방식입니다.
소량의 라벨 데이터와 다량의 비라벨 데이터를 결합하여 학습하는 방식입니다. → 반지도 학습
한 도메인에서 학습한 모델의 지식을 다른 도메인의 문제에 적용하는 기법입니다.

문제 유형

입력 데이터를 미리 정의된 범주(클래스) 중 하나로 할당하는 문제입니다. 이진 분류(2개 클래스)와 다중 분류(3개 이상)로 나뉩니다. → 분류 알고리즘
연속적인 수치 값을 예측하는 문제입니다. 주택 가격, 매출액 등의 예측이 해당합니다. → 회귀 알고리즘
유사한 데이터 포인트를 그룹으로 묶는 비지도학습 문제입니다. → 클러스터링
고차원 데이터를 저차원으로 변환하면서 중요한 정보를 최대한 보존하는 기법입니다. → 차원 축소
정상 패턴에서 벗어나는 비정상적인 데이터 포인트를 식별하는 문제입니다. → 이상치 탐지

데이터 관련

모델 학습에 사용되는 데이터입니다. 전체 데이터의 60-80%를 할당하는 것이 일반적입니다.
학습 과정에서 모델의 성능을 확인하고 하이퍼파라미터를 조정하는 데 사용되는 데이터입니다.
최종 모델의 성능을 평가하는 데 사용되는 데이터입니다. 모델 학습이나 선택에 사용해서는 안 됩니다.
데이터의 분포, 패턴, 이상치 등을 시각화와 통계를 통해 탐색하는 과정입니다. → EDA
도메인 지식을 활용하여 기존 데이터에서 새로운 특성을 생성하거나 변환하는 과정입니다. → 특성 공학
모델 성능에 유의미한 특성만 선별하는 과정입니다. → 특성 선택
데이터에서 값이 누락된 부분입니다. 삭제, 대체(평균/중앙값), 모델 기반 예측 등으로 처리합니다. → 데이터 정제
다른 데이터 포인트와 현저히 다른 값을 가진 관측치입니다. 측정 오류이거나 실제 특이 패턴일 수 있습니다.
학습 과정에서 모델이 테스트 데이터나 미래 정보에 접근하게 되는 상황입니다. 비현실적으로 높은 성능의 원인이 됩니다.
범주형 변수를 이진 벡터로 변환하는 방법입니다. 각 범주가 별도의 열(0 또는 1)이 됩니다. → 인코딩과 스케일링
수치형 특성의 범위를 일정하게 조정하는 전처리 기법입니다. StandardScaler, MinMaxScaler 등이 있습니다.

모델 평가

모델이 학습 데이터의 노이즈까지 학습하여 새로운 데이터에 대한 성능이 떨어지는 현상입니다. → 과적합과 과소적합
모델이 학습 데이터의 패턴도 제대로 포착하지 못하는 현상입니다. 모델이 너무 단순할 때 발생합니다.
편향(Bias)을 줄이면 분산(Variance)이 증가하고, 분산을 줄이면 편향이 증가하는 상충 관계입니다.
데이터를 여러 번 분할하여 모델의 성능을 안정적으로 추정하는 기법입니다. K-Fold가 대표적입니다. → 교차검증
전체 예측 중 올바른 예측의 비율입니다. 클래스 불균형 시 오도될 수 있습니다. → 분류 평가 지표
양성으로 예측한 것 중 실제 양성의 비율입니다. 거짓 양성(False Positive)을 줄이고 싶을 때 중요합니다.
실제 양성 중 올바르게 예측한 비율입니다. 거짓 음성(False Negative)을 줄이고 싶을 때 중요합니다.
정밀도와 재현율의 조화 평균입니다. 두 지표의 균형을 하나의 숫자로 표현합니다.
ROC 곡선 아래의 면적입니다. 분류 모델의 전반적인 판별 능력을 측정합니다. 1에 가까울수록 좋습니다.
분류 모델의 예측 결과를 실제 클래스와 비교하여 TP, FP, FN, TN으로 정리한 표입니다.
회귀 모델의 평균 제곱 오차입니다. 이상치에 민감합니다. → 회귀 평가 지표
모델이 타겟 변수의 분산을 얼마나 설명하는지 나타내는 지표입니다. 1에 가까울수록 좋습니다.
학습 데이터 크기에 따른 학습/검증 성능의 변화를 시각화한 그래프입니다. → 학습 곡선

알고리즘 관련

여러 개의 모델을 결합하여 단일 모델보다 더 나은 성능을 얻는 기법입니다. 배깅, 부스팅, 스태킹이 대표적입니다. → 앙상블
Bootstrap Aggregating의 약자입니다. 데이터를 복원 추출하여 여러 모델을 병렬 학습 후 결합합니다. 랜덤 포레스트가 대표적입니다.
이전 모델의 오류를 보완하는 방향으로 순차적으로 모델을 학습합니다. XGBoost, LightGBM이 대표적입니다.
과적합을 방지하기 위해 모델의 복잡도에 페널티를 부과하는 기법입니다. L1(Lasso), L2(Ridge)가 대표적입니다.
손실 함수의 기울기를 따라 파라미터를 반복적으로 갱신하여 최적 값을 찾는 최적화 알고리즘입니다. → 최적화
분류 모델이 서로 다른 클래스를 구분하는 경계선(또는 면)입니다.
데이터를 고차원 공간으로 매핑하는 함수입니다. SVM에서 비선형 결정 경계를 학습할 때 사용합니다.
경사 하강법에서 한 번의 갱신 시 파라미터를 얼마나 크게 변경할지 결정하는 하이퍼파라미터입니다.

파이프라인 및 실무

전처리, 특성 선택, 모델 학습 등 여러 단계를 하나의 객체로 묶어 재현 가능하게 만드는 구조입니다. → sklearn Pipeline
알고리즘 선택, 하이퍼파라미터 튜닝, 특성 공학 등을 자동화하는 기법과 도구입니다. → AutoML
모델이 왜 그런 예측을 했는지 사람이 이해할 수 있는 정도입니다. SHAP, LIME이 대표적인 해석 도구입니다.
게임 이론의 샤플리 값을 기반으로 각 특성이 예측에 기여한 정도를 설명하는 기법입니다.
모델이 배포된 후 입력 데이터의 분포가 학습 시점과 달라지는 현상입니다.
ML 모델의 개발, 배포, 모니터링을 체계적으로 관리하는 실무 방법론입니다.

다음 문서