왜 전처리가 중요한가
컴퓨터는 텍스트를 직접 이해하지 못합니다. “오늘 날씨가 좋습니다”라는 문장을 모델에 입력하려면, 이 문장을 **토큰(Token)**으로 분리하고, 각 토큰을 **숫자(벡터)**로 변환해야 합니다. 이 과정에서 노이즈를 제거하고, 의미 있는 단위로 분할하며, 수치적 표현으로 바꾸는 것이 전처리의 역할입니다. 전처리가 부실하면 아무리 좋은 모델도 제대로 된 성능을 내지 못합니다. “Garbage in, garbage out” 원칙이 NLP에서도 그대로 적용됩니다.전처리 파이프라인
| 단계 | 입력 | 출력 | 핵심 질문 |
|---|---|---|---|
| 텍스트 정제 | 원본 텍스트 | 깨끗한 텍스트 | 어떤 노이즈를 제거할 것인가? |
| 토큰화 | 깨끗한 텍스트 | 토큰 시퀀스 | 어떤 단위로 분할할 것인가? |
| 벡터화 | 토큰 시퀀스 | 수치 벡터 | 어떤 방식으로 수치화할 것인가? |
전처리와 모델의 관계
전처리 방식은 사용하는 모델에 따라 달라집니다.- 전통적 머신러닝 모델 (Naive Bayes, SVM): 직접 토큰화 + TF-IDF/BoW 벡터화가 필요합니다
- 딥러닝 모델 (LSTM, CNN): Word2Vec/FastText 임베딩을 사전에 준비해야 합니다
- Transformer 모델 (BERT, GPT): 모델 전용 토크나이저가 내장되어 있으며, 벡터화도 모델 내부에서 처리됩니다
하위 문서
토큰화
BPE, WordPiece, SentencePiece 등 서브워드 토큰화 알고리즘과 HuggingFace Tokenizers 실습
한국어 형태소 분석
KoNLPy를 활용한 한국어 형태소 분석과 교착어 토큰화의 특수성
텍스트 정제
유니코드 정규화, 불용어 제거, HTML 태그 제거 등 텍스트 정제 실습
텍스트 벡터화
BoW, TF-IDF, Word2Vec, FastText, GloVe를 활용한 텍스트 수치화

