텍스트 전처리
텍스트 전처리(Text Preprocessing)는 원시 텍스트를 모델이 처리할 수 있는 형태로 변환하는 과정입니다. NLP 파이프라인의 가장 첫 단계이며, 전처리의 품질이 최종 모델 성능에 직접적인 영향을 미칩니다.왜 전처리가 중요한가
컴퓨터는 텍스트를 직접 이해하지 못합니다. “오늘 날씨가 좋습니다”라는 문장을 모델에 입력하려면, 이 문장을 **토큰(Token)**으로 분리하고, 각 토큰을 **숫자(벡터)**로 변환해야 합니다. 이 과정에서 노이즈를 제거하고, 의미 있는 단위로 분할하며, 수치적 표현으로 바꾸는 것이 전처리의 역할입니다. 전처리가 부실하면 아무리 좋은 모델도 제대로 된 성능을 내지 못합니다. “Garbage in, garbage out” 원칙이 NLP에서도 그대로 적용됩니다.전처리 파이프라인
| 단계 | 입력 | 출력 | 핵심 질문 |
|---|---|---|---|
| 텍스트 정제 | 원본 텍스트 | 깨끗한 텍스트 | 어떤 노이즈를 제거할 것인가? |
| 토큰화 | 깨끗한 텍스트 | 토큰 시퀀스 | 어떤 단위로 분할할 것인가? |
| 벡터화 | 토큰 시퀀스 | 수치 벡터 | 어떤 방식으로 수치화할 것인가? |
전처리와 모델의 관계
전처리 방식은 사용하는 모델에 따라 달라집니다.- 전통적 ML 모델 (Naive Bayes, SVM): 직접 토큰화 + TF-IDF/BoW 벡터화가 필요합니다
- 딥러닝 모델 (LSTM, CNN): Word2Vec/FastText 임베딩을 사전에 준비해야 합니다
- Transformer 모델 (BERT, GPT): 모델 전용 토크나이저가 내장되어 있으며, 벡터화도 모델 내부에서 처리됩니다

