NLP 핵심 태스크
사전학습 언어 모델(PLM)은 범용 언어 이해 능력을 갖추고 있지만, 실제 비즈니스 문제를 해결하려면 구체적인 태스크에 맞게 적용해야 합니다. 이 그룹에서는 NLP의 주요 태스크를 유형별로 분류하고, 각 태스크를 HuggingFace로 구현하는 방법을 학습합니다.태스크 유형 맵
NLP 태스크는 입력과 출력의 형태에 따라 네 가지 유형으로 분류할 수 있습니다.태스크별 비교
| 태스크 | 유형 | 입력 | 출력 | 대표 모델 | 주요 평가 지표 |
|---|---|---|---|---|---|
| 텍스트 분류 | 분류 | 문장/문서 | 레이블 | BERT, RoBERTa | Accuracy, F1 |
| 개체명 인식 | 추출 | 문장 | 토큰별 태그 | BERT-CRF | seqeval F1 |
| 질의응답 | 추출/생성 | 질문 + 문맥 | 답변 텍스트 | BERT, T5 | EM, F1 |
| 텍스트 요약 | 생성 | 긴 문서 | 짧은 요약 | BART, T5 | ROUGE |
| 기계 번역 | 변환 | 원문 | 번역문 | mBART, NLLB | BLEU, COMET |
| 의미 유사도 | 분류 | 문장 쌍 | 유사도 점수 | Sentence-BERT | Spearman 상관계수 |
학습 순서
분류(Classification)부터 시작하여 점차 복잡한 태스크로 진행합니다. 텍스트 분류와 NER은 인코더 모델(BERT) 중심이고, QA와 요약은 인코더-디코더(T5) 또는 디코더(GPT) 모델도 다룹니다.텍스트 분류
감성 분석 데이터셋으로 BERT Fine-tuning 실습 — 데이터 준비부터 평가까지
개체명 인식 (NER)
BIO 태깅 체계와 Token Classification — 한국어 NER 데이터셋 활용
질의응답 (QA)
Extractive/Generative QA 비교 — KorQuAD 데이터셋으로 실습
텍스트 요약
Extractive vs Abstractive 요약 — BART/T5로 한국어 요약 구현
기계 번역
규칙 기반에서 Neural MT까지 — BLEU, COMET 평가 지표 이해
의미 유사도
Sentence-BERT와 코사인 유사도 — RAG 검색의 핵심 기술

