NLP 전체 지도
학습 목표
- NLP 탭의 7개 학습 그룹 간 관계를 설명할 수 있습니다
- 각 그룹에서 배우는 핵심 내용과 필요한 선수 지식을 파악할 수 있습니다
- NLP 탭의 학습이 RAG, Agent, Fine-Tuning, LLMOps 탭으로 어떻게 연결되는지 이해할 수 있습니다
- 자신의 학습 수준과 목표에 맞는 시작점을 결정할 수 있습니다
왜 중요한가
NLP는 단일 기술이 아니라 여러 계층의 기술이 쌓인 구조입니다. 전처리 없이는 모델에 데이터를 넣을 수 없고, Transformer를 이해하지 못하면 BERT와 GPT의 차이를 구분할 수 없습니다. 전체 그림을 먼저 파악하면, 각 개별 주제를 공부할 때 “이것이 왜 필요한지”를 항상 인식하며 학습할 수 있습니다. 또한 NLP 탭의 내용은 독립적으로 끝나지 않습니다. RAG 시스템을 구축하려면 임베딩과 토큰화를, Agent를 만들려면 프롬프팅과 Function Calling을, Fine-Tuning을 하려면 PLM과 태스크 이해를 기반으로 합니다. 이 문서에서 전체 연결 관계를 한눈에 파악하세요.핵심 개념
NLP 학습 로드맵
아래 다이어그램은 NLP 탭 내부의 학습 흐름과 후행 탭으로의 연결을 보여줍니다.그룹별 핵심 내용과 연결
01. 텍스트 전처리
| 핵심 주제 | 배우는 내용 | 후속 연결 |
|---|---|---|
| 토큰화 | BPE, WordPiece, SentencePiece 알고리즘 | Transformer 입력, Fine-Tuning 토크나이저 |
| 한국어 형태소 분석 | KoNLPy, Mecab, 교착어 처리 | 한국어 모델 Fine-Tuning |
| 텍스트 정제 | 정규화, 불용어, 특수문자 처리 | 데이터 품질 → 모델 성능 |
| 벡터화 | BoW, TF-IDF, Word2Vec | RAG 희소 검색(BM25)의 기초 |
02. Attention과 Transformer
| 핵심 주제 | 배우는 내용 | 후속 연결 |
|---|---|---|
| Attention 메커니즘 | Seq2Seq 한계, Attention 동기 | 모든 현대 NLP 모델의 기반 |
| Self-Attention | Query, Key, Value 연산 | BERT/GPT 내부 동작 이해 |
| Multi-Head Attention | 다중 관점에서의 관계 포착 | PLM 아키텍처 이해 |
| Positional Encoding | 위치 정보 인코딩 방식 | RoPE 등 최신 위치 인코딩 |
| 전체 아키텍처 | 인코더-디코더, 잔차 연결, 정규화 | 모델 구조 선택의 기반 |
03. 사전학습 언어 모델 (PLM)
| 핵심 주제 | 배우는 내용 | 후속 연결 |
|---|---|---|
| BERT 계열 | 인코더 기반, MLM, NSP | 분류/추출 태스크, Fine-Tuning |
| GPT 계열 | 디코더 기반, 자기회귀 학습 | 생성 태스크, LLM 활용 |
| LLaMA 계열 | 오픈소스 LLM, 효율적 학습 | Fine-Tuning, 로컬 배포 |
| 한국어 PLM | KoBERT, KoGPT, SOLAR | 한국어 태스크 적용 |
| Scaling Laws | 모델 크기와 성능의 관계 | LLM 선택, 비용 최적화 |
04. NLP 핵심 태스크
| 핵심 주제 | 배우는 내용 | 후속 연결 |
|---|---|---|
| 텍스트 분류 | 감성 분석, 주제 분류 | Fine-Tuning 분류 헤드 설계 |
| NER | 개체명 인식, 토큰 분류 | 정보 추출 파이프라인 |
| 질의응답 | 추출형/생성형 QA | RAG 시스템의 리더(Reader) |
| 요약 | 추출형/추상형 요약 | RAG 요약 생성 |
| 번역 | 기계 번역, 다국어 처리 | 다국어 서비스 |
| 유사도 | 문장 임베딩, 코사인 유사도 | RAG 검색 랭킹 |
05. 프롬프트 엔지니어링
| 핵심 주제 | 배우는 내용 | 후속 연결 |
|---|---|---|
| 프롬프트 설계 | 역할, 지시, 형식 | Agent 시스템 프롬프트 |
| Few-shot | 예제 기반 학습 유도 | RAG의 예제 주입 |
| Chain-of-Thought | 단계적 추론 유도 | Agent 추론 체인 |
| ReAct | 추론 + 행동 프레임워크 | Agent 아키텍처의 기반 |
| 평가 | 프롬프트 품질 측정 | LLMOps 평가 파이프라인 |
06. LLM 활용 실무
| 핵심 주제 | 배우는 내용 | 후속 연결 |
|---|---|---|
| API 활용 | OpenAI, Anthropic, Google API | 모든 LLM 기반 애플리케이션 |
| Function Calling | 도구 호출, 구조화된 출력 | Agent 도구 사용 |
| Output Parsing | JSON 파싱, 검증 | RAG/Agent 응답 처리 |
| Guardrails | 안전장치, 콘텐츠 필터링 | LLMOps 안전성 |
| 비용 최적화 | 토큰 관리, 캐싱 | LLMOps 비용 관리 |
07. 실무 프로젝트
감성 분석, 챗봇, 문서 QA 프로젝트를 통해 앞서 배운 기술을 종합적으로 적용합니다. 프로젝트 경험은 후행 탭에서의 실무 적용을 위한 자신감과 기반을 제공합니다.후행 탭 연결 매핑
| 후행 탭 | 필요한 NLP 선수 지식 | 해당 그룹 |
|---|---|---|
| RAG | 임베딩, 토큰화, QA 태스크, API 활용 | 01, 04, 06 |
| Agent | 프롬프팅 (ReAct), Function Calling, API 활용 | 05, 06 |
| Fine-Tuning | PLM 구조, 태스크 설계, 토크나이저 | 02, 03, 04 |
| LLMOps | API 활용, 비용 최적화, 평가 메트릭 | 04, 06 |
AI/ML에서의 활용
NLP 전체 지도를 이해하면 실무에서 다음과 같은 의사결정을 더 잘할 수 있습니다.- 모델 선택: “분류 태스크니까 BERT 계열이 적합하고, 생성이 필요하면 GPT 계열을 써야 한다”
- 파이프라인 설계: “RAG를 구축하려면 임베딩 → 검색 → 생성의 각 단계를 알아야 한다”
- 비용 효율: “작은 모델로 Fine-Tuning할지, 큰 모델에 프롬프팅할지 트레이드오프를 판단할 수 있다”
- 디버깅: “모델 성능이 낮을 때 전처리 문제인지, 모델 문제인지, 프롬프트 문제인지 계층적으로 진단할 수 있다”
처음부터 순서대로 다 해야 하나요?
처음부터 순서대로 다 해야 하나요?
이상적으로는 01번부터 순서대로 학습하는 것이 좋습니다. 하지만 이미 DL 탭에서 Transformer를 공부했다면 03번(PLM)부터, LLM API를 사용해본 적이 있다면 05번(프롬프팅)부터 시작해도 됩니다. 각 그룹의 첫 페이지(index)에서 선수 지식을 확인하세요.
후행 탭을 먼저 공부해도 되나요?
후행 탭을 먼저 공부해도 되나요?
가능하지만, NLP 기초 없이 RAG나 Agent를 공부하면 “왜 이렇게 하는지” 이해하기 어렵습니다. 예를 들어 RAG에서 청크 크기를 결정하려면 토큰화를 이해해야 하고, Agent에서 프롬프트를 설계하려면 Chain-of-Thought를 알아야 합니다.
한국어 NLP는 어디에서 다루나요?
한국어 NLP는 어디에서 다루나요?
한국어 특수성은 여러 그룹에 걸쳐 다룹니다. 전처리 그룹의 한국어 형태소 분석, PLM 그룹의 한국어 PLM(KoBERT, KoGPT), 한국어 LLM(SOLAR, HyperCLOVA) 문서를 확인하세요.
체크리스트
- NLP 탭의 7개 그룹과 각각의 핵심 주제를 나열할 수 있다
- 그룹 간 선후 관계(전처리 → Transformer → PLM → …)를 설명할 수 있다
- NLP 탭의 각 그룹이 후행 탭(RAG, Agent, Fine-Tuning, LLMOps)에 어떻게 연결되는지 설명할 수 있다
- 자신의 현재 수준에 맞는 학습 시작점을 결정했다

