Skip to main content

NLP 핵심 태스크

사전학습 언어 모델(PLM)은 범용 언어 이해 능력을 갖추고 있지만, 실제 비즈니스 문제를 해결하려면 구체적인 태스크에 맞게 적용해야 합니다. 이 그룹에서는 NLP의 주요 태스크를 유형별로 분류하고, 각 태스크를 HuggingFace로 구현하는 방법을 학습합니다.

태스크 유형 맵

NLP 태스크는 입력과 출력의 형태에 따라 네 가지 유형으로 분류할 수 있습니다.

태스크별 비교

태스크유형입력출력대표 모델주요 평가 지표
텍스트 분류분류문장/문서레이블BERT, RoBERTaAccuracy, F1
개체명 인식추출문장토큰별 태그BERT-CRFseqeval F1
질의응답추출/생성질문 + 문맥답변 텍스트BERT, T5EM, F1
텍스트 요약생성긴 문서짧은 요약BART, T5ROUGE
기계 번역변환원문번역문mBART, NLLBBLEU, COMET
의미 유사도분류문장 쌍유사도 점수Sentence-BERTSpearman 상관계수
Fine-tuning vs Zero-shot: 분류, NER, QA 같은 전통 태스크는 BERT 계열 Fine-tuning이 효과적이고, 요약이나 번역은 대규모 생성 모델(T5, GPT)의 Few-shot/Zero-shot 접근도 경쟁력이 있습니다. 각 태스크 페이지에서 두 접근법을 비교합니다.

학습 순서

분류(Classification)부터 시작하여 점차 복잡한 태스크로 진행합니다. 텍스트 분류와 NER은 인코더 모델(BERT) 중심이고, QA와 요약은 인코더-디코더(T5) 또는 디코더(GPT) 모델도 다룹니다.