Skip to main content

텍스트 전처리

텍스트 전처리(Text Preprocessing)는 원시 텍스트를 모델이 처리할 수 있는 형태로 변환하는 과정입니다. NLP 파이프라인의 가장 첫 단계이며, 전처리의 품질이 최종 모델 성능에 직접적인 영향을 미칩니다.

왜 전처리가 중요한가

컴퓨터는 텍스트를 직접 이해하지 못합니다. “오늘 날씨가 좋습니다”라는 문장을 모델에 입력하려면, 이 문장을 **토큰(Token)**으로 분리하고, 각 토큰을 **숫자(벡터)**로 변환해야 합니다. 이 과정에서 노이즈를 제거하고, 의미 있는 단위로 분할하며, 수치적 표현으로 바꾸는 것이 전처리의 역할입니다. 전처리가 부실하면 아무리 좋은 모델도 제대로 된 성능을 내지 못합니다. “Garbage in, garbage out” 원칙이 NLP에서도 그대로 적용됩니다.

전처리 파이프라인

단계입력출력핵심 질문
텍스트 정제원본 텍스트깨끗한 텍스트어떤 노이즈를 제거할 것인가?
토큰화깨끗한 텍스트토큰 시퀀스어떤 단위로 분할할 것인가?
벡터화토큰 시퀀스수치 벡터어떤 방식으로 수치화할 것인가?
한국어 사용자를 위한 안내: 한국어는 영어와 다른 언어적 특성(교착어, 띄어쓰기 문제)을 가지고 있어, 전처리에서 특별한 주의가 필요합니다. 한국어 형태소 분석 문서에서 이를 자세히 다룹니다.

전처리와 모델의 관계

전처리 방식은 사용하는 모델에 따라 달라집니다.
  • 전통적 ML 모델 (Naive Bayes, SVM): 직접 토큰화 + TF-IDF/BoW 벡터화가 필요합니다
  • 딥러닝 모델 (LSTM, CNN): Word2Vec/FastText 임베딩을 사전에 준비해야 합니다
  • Transformer 모델 (BERT, GPT): 모델 전용 토크나이저가 내장되어 있으며, 벡터화도 모델 내부에서 처리됩니다
최신 Transformer 모델을 사용할 때도 텍스트 정제는 여전히 중요합니다. 그리고 토큰화의 원리를 이해해야 토큰 수 관리, 청크 분할 등 실무에서의 의사결정을 올바르게 할 수 있습니다.

하위 문서