텍스트 전처리

왜 전처리가 중요한가

컴퓨터는 텍스트를 직접 이해하지 못합니다. “오늘 날씨가 좋습니다”라는 문장을 모델에 입력하려면, 이 문장을 **토큰(Token)**으로 분리하고, 각 토큰을 **숫자(벡터)**로 변환해야 합니다. 이 과정에서 노이즈를 제거하고, 의미 있는 단위로 분할하며, 수치적 표현으로 바꾸는 것이 전처리의 역할입니다.

전처리가 부실하면 아무리 좋은 모델도 제대로 된 성능을 내지 못합니다. “Garbage in, garbage out” 원칙이 NLP에서도 그대로 적용됩니다.

전처리 파이프라인

단계	입력	출력	핵심 질문
텍스트 정제	원본 텍스트	깨끗한 텍스트	어떤 노이즈를 제거할 것인가?
토큰화	깨끗한 텍스트	토큰 시퀀스	어떤 단위로 분할할 것인가?
벡터화	토큰 시퀀스	수치 벡터	어떤 방식으로 수치화할 것인가?

한국어 사용자를 위한 안내: 한국어는 영어와 다른 언어적 특성(교착어, 띄어쓰기 문제)을 가지고 있어, 전처리에서 특별한 주의가 필요합니다. 한국어 형태소 분석 문서에서 이를 자세히 다룹니다.

전처리와 모델의 관계

전처리 방식은 사용하는 모델에 따라 달라집니다.

전통적 머신러닝 모델 (Naive Bayes, SVM): 직접 토큰화 + TF-IDF/BoW 벡터화가 필요합니다

딥러닝 모델 (LSTM, CNN): Word2Vec/FastText 임베딩을 사전에 준비해야 합니다

Transformer 모델 (BERT, GPT): 모델 전용 토크나이저가 내장되어 있으며, 벡터화도 모델 내부에서 처리됩니다

최신 Transformer 모델을 사용할 때도 텍스트 정제는 여전히 중요합니다. 그리고 토큰화의 원리를 이해해야 토큰 수 관리, 청크 분할 등 실무에서의 의사결정을 올바르게 할 수 있습니다.

하위 문서

토큰화

BPE, WordPiece, SentencePiece 등 서브워드 토큰화 알고리즘과 HuggingFace Tokenizers 실습

한국어 형태소 분석

KoNLPy를 활용한 한국어 형태소 분석과 교착어 토큰화의 특수성

텍스트 정제

유니코드 정규화, 불용어 제거, HTML 태그 제거 등 텍스트 정제 실습

텍스트 벡터화

BoW, TF-IDF, Word2Vec, FastText, GloVe를 활용한 텍스트 수치화

00. 시작하기

01. 텍스트 전처리

02. Transformer 기초

03. 사전학습 모델과 LLM

04. NLP 핵심 태스크

05. 프롬프트 엔지니어링

06. LLM 실무 적용

07. 실무 프로젝트

왜 전처리가 중요한가

전처리 파이프라인

전처리와 모델의 관계

하위 문서

토큰화

한국어 형태소 분석

텍스트 정제

텍스트 벡터화

00. 시작하기

01. 텍스트 전처리

02. Transformer 기초

03. 사전학습 모델과 LLM

04. NLP 핵심 태스크

05. 프롬프트 엔지니어링

06. LLM 실무 적용

07. 실무 프로젝트

​왜 전처리가 중요한가

​전처리 파이프라인

​전처리와 모델의 관계

​하위 문서

토큰화

한국어 형태소 분석

텍스트 정제

텍스트 벡터화

왜 전처리가 중요한가

전처리 파이프라인

전처리와 모델의 관계

하위 문서