Skip to main content

NLP 전체 지도

학습 목표

  • NLP 탭의 7개 학습 그룹 간 관계를 설명할 수 있습니다
  • 각 그룹에서 배우는 핵심 내용과 필요한 선수 지식을 파악할 수 있습니다
  • NLP 탭의 학습이 RAG, Agent, Fine-Tuning, LLMOps 탭으로 어떻게 연결되는지 이해할 수 있습니다
  • 자신의 학습 수준과 목표에 맞는 시작점을 결정할 수 있습니다

왜 중요한가

NLP는 단일 기술이 아니라 여러 계층의 기술이 쌓인 구조입니다. 전처리 없이는 모델에 데이터를 넣을 수 없고, Transformer를 이해하지 못하면 BERT와 GPT의 차이를 구분할 수 없습니다. 전체 그림을 먼저 파악하면, 각 개별 주제를 공부할 때 “이것이 왜 필요한지”를 항상 인식하며 학습할 수 있습니다. 또한 NLP 탭의 내용은 독립적으로 끝나지 않습니다. RAG 시스템을 구축하려면 임베딩과 토큰화를, Agent를 만들려면 프롬프팅과 Function Calling을, Fine-Tuning을 하려면 PLM과 태스크 이해를 기반으로 합니다. 이 문서에서 전체 연결 관계를 한눈에 파악하세요.

핵심 개념

NLP 학습 로드맵

아래 다이어그램은 NLP 탭 내부의 학습 흐름과 후행 탭으로의 연결을 보여줍니다.

그룹별 핵심 내용과 연결

01. 텍스트 전처리

핵심 주제배우는 내용후속 연결
토큰화BPE, WordPiece, SentencePiece 알고리즘Transformer 입력, Fine-Tuning 토크나이저
한국어 형태소 분석KoNLPy, Mecab, 교착어 처리한국어 모델 Fine-Tuning
텍스트 정제정규화, 불용어, 특수문자 처리데이터 품질 → 모델 성능
벡터화BoW, TF-IDF, Word2VecRAG 희소 검색(BM25)의 기초
텍스트 전처리는 모든 NLP 파이프라인의 시작점입니다. 아무리 좋은 모델도 잘못된 입력을 받으면 좋은 결과를 낼 수 없습니다. 특히 토큰화는 Transformer 모델의 입력 형식을 이해하는 데 필수적이며, 벡터화는 RAG 탭에서 다루는 임베딩 기반 검색의 직접적인 기초가 됩니다.

02. Attention과 Transformer

핵심 주제배우는 내용후속 연결
Attention 메커니즘Seq2Seq 한계, Attention 동기모든 현대 NLP 모델의 기반
Self-AttentionQuery, Key, Value 연산BERT/GPT 내부 동작 이해
Multi-Head Attention다중 관점에서의 관계 포착PLM 아키텍처 이해
Positional Encoding위치 정보 인코딩 방식RoPE 등 최신 위치 인코딩
전체 아키텍처인코더-디코더, 잔차 연결, 정규화모델 구조 선택의 기반
Transformer는 현대 NLP의 근간입니다. 이 그룹을 이해하면 BERT가 왜 양방향인지, GPT가 왜 자기회귀(Autoregressive)인지, T5가 왜 두 구조를 모두 사용하는지를 자연스럽게 이해할 수 있습니다.

03. 사전학습 언어 모델 (PLM)

핵심 주제배우는 내용후속 연결
BERT 계열인코더 기반, MLM, NSP분류/추출 태스크, Fine-Tuning
GPT 계열디코더 기반, 자기회귀 학습생성 태스크, LLM 활용
LLaMA 계열오픈소스 LLM, 효율적 학습Fine-Tuning, 로컬 배포
한국어 PLMKoBERT, KoGPT, SOLAR한국어 태스크 적용
Scaling Laws모델 크기와 성능의 관계LLM 선택, 비용 최적화
PLM은 NLP의 “사전학습-미세조정” 패러다임의 핵심입니다. 이 그룹의 학습은 Fine-Tuning 탭으로 직접 연결됩니다. 어떤 모델을 선택하고, 어떻게 미세조정할지를 결정하려면 각 모델의 구조적 차이를 이해해야 합니다.

04. NLP 핵심 태스크

핵심 주제배우는 내용후속 연결
텍스트 분류감성 분석, 주제 분류Fine-Tuning 분류 헤드 설계
NER개체명 인식, 토큰 분류정보 추출 파이프라인
질의응답추출형/생성형 QARAG 시스템의 리더(Reader)
요약추출형/추상형 요약RAG 요약 생성
번역기계 번역, 다국어 처리다국어 서비스
유사도문장 임베딩, 코사인 유사도RAG 검색 랭킹
태스크 그룹은 이론을 실무로 연결하는 다리 역할을 합니다. HuggingFace Transformers 라이브러리를 활용하여 각 태스크를 직접 구현하며, 이 경험은 Fine-Tuning 탭에서의 커스텀 학습과 RAG 탭에서의 검색-생성 파이프라인으로 이어집니다.

05. 프롬프트 엔지니어링

핵심 주제배우는 내용후속 연결
프롬프트 설계역할, 지시, 형식Agent 시스템 프롬프트
Few-shot예제 기반 학습 유도RAG의 예제 주입
Chain-of-Thought단계적 추론 유도Agent 추론 체인
ReAct추론 + 행동 프레임워크Agent 아키텍처의 기반
평가프롬프트 품질 측정LLMOps 평가 파이프라인
프롬프팅은 LLM과 소통하는 인터페이스입니다. 이 그룹은 Agent 탭에서 다루는 자율형 에이전트 설계의 직접적인 기반이 됩니다. 특히 ReAct 패턴은 Agent의 추론-행동 루프로 확장됩니다.

06. LLM 활용 실무

핵심 주제배우는 내용후속 연결
API 활용OpenAI, Anthropic, Google API모든 LLM 기반 애플리케이션
Function Calling도구 호출, 구조화된 출력Agent 도구 사용
Output ParsingJSON 파싱, 검증RAG/Agent 응답 처리
Guardrails안전장치, 콘텐츠 필터링LLMOps 안전성
비용 최적화토큰 관리, 캐싱LLMOps 비용 관리
LLM 활용 실무는 이론을 애플리케이션으로 전환하는 최종 단계입니다. 여기서 배운 API 활용, Function Calling, Output Parsing 기술은 RAG 탭, Agent 탭, LLMOps 탭의 공통 기반이 됩니다.

07. 실무 프로젝트

감성 분석, 챗봇, 문서 QA 프로젝트를 통해 앞서 배운 기술을 종합적으로 적용합니다. 프로젝트 경험은 후행 탭에서의 실무 적용을 위한 자신감과 기반을 제공합니다.

후행 탭 연결 매핑

후행 탭필요한 NLP 선수 지식해당 그룹
RAG임베딩, 토큰화, QA 태스크, API 활용01, 04, 06
Agent프롬프팅 (ReAct), Function Calling, API 활용05, 06
Fine-TuningPLM 구조, 태스크 설계, 토크나이저02, 03, 04
LLMOpsAPI 활용, 비용 최적화, 평가 메트릭04, 06

AI/ML에서의 활용

NLP 전체 지도를 이해하면 실무에서 다음과 같은 의사결정을 더 잘할 수 있습니다.
  • 모델 선택: “분류 태스크니까 BERT 계열이 적합하고, 생성이 필요하면 GPT 계열을 써야 한다”
  • 파이프라인 설계: “RAG를 구축하려면 임베딩 → 검색 → 생성의 각 단계를 알아야 한다”
  • 비용 효율: “작은 모델로 Fine-Tuning할지, 큰 모델에 프롬프팅할지 트레이드오프를 판단할 수 있다”
  • 디버깅: “모델 성능이 낮을 때 전처리 문제인지, 모델 문제인지, 프롬프트 문제인지 계층적으로 진단할 수 있다”
이상적으로는 01번부터 순서대로 학습하는 것이 좋습니다. 하지만 이미 DL 탭에서 Transformer를 공부했다면 03번(PLM)부터, LLM API를 사용해본 적이 있다면 05번(프롬프팅)부터 시작해도 됩니다. 각 그룹의 첫 페이지(index)에서 선수 지식을 확인하세요.
가능하지만, NLP 기초 없이 RAG나 Agent를 공부하면 “왜 이렇게 하는지” 이해하기 어렵습니다. 예를 들어 RAG에서 청크 크기를 결정하려면 토큰화를 이해해야 하고, Agent에서 프롬프트를 설계하려면 Chain-of-Thought를 알아야 합니다.
한국어 특수성은 여러 그룹에 걸쳐 다룹니다. 전처리 그룹의 한국어 형태소 분석, PLM 그룹의 한국어 PLM(KoBERT, KoGPT), 한국어 LLM(SOLAR, HyperCLOVA) 문서를 확인하세요.

체크리스트

  • NLP 탭의 7개 그룹과 각각의 핵심 주제를 나열할 수 있다
  • 그룹 간 선후 관계(전처리 → Transformer → PLM → …)를 설명할 수 있다
  • NLP 탭의 각 그룹이 후행 탭(RAG, Agent, Fine-Tuning, LLMOps)에 어떻게 연결되는지 설명할 수 있다
  • 자신의 현재 수준에 맞는 학습 시작점을 결정했다

다음 문서