OCR — 이미지 속 텍스트 인식
OCR(Optical Character Recognition)은 이미지에서 텍스트를 인식하여 디지털 문자열로 변환하는 기술입니다. 문서 디지털화, 번호판 인식, 영수증 처리 등에 핵심적으로 활용됩니다.핵심 아이디어
전통적인 OCR은 텍스트 영역 탐지(Detection)와 문자 인식(Recognition)을 분리하여 수행합니다. 최근에는 Transformer 기반의 End-to-End 모델이 등장하여 복잡한 문서 레이아웃도 처리할 수 있게 되었습니다.동작 방식
구현
PaddleOCR
EasyOCR
OCR 도구 비교
| 비교 항목 | PaddleOCR | EasyOCR | Tesseract | Donut |
|---|---|---|---|---|
| 한국어 지원 | 우수 | 우수 | 보통 | 좋음 |
| 속도 | 빠름 | 보통 | 빠름 | 느림 |
| 정확도 | 높음 | 높음 | 보통 | 매우 높음 |
| 레이아웃 이해 | 기본 | 기본 | 없음 | 강함 |
| GPU 필요 | 권장 | 권장 | 불필요 | 필수 |
| 추천 용도 | 범용 OCR | 간단한 OCR | 레거시 | 문서 AI |
Donut: End-to-End Document Understanding
Donut은 OCR 없이 이미지에서 직접 구조화된 정보를 추출하는 Transformer 모델입니다.손글씨 인식도 가능한가요?
손글씨 인식도 가능한가요?
가능하지만 인쇄체보다 정확도가 낮습니다. TrOCR(Transformer OCR)이 손글씨 인식에 특화되어 있으며, Hugging Face에서 사전학습 모델을 제공합니다.
표(Table) 인식은 어떻게 하나요?
표(Table) 인식은 어떻게 하나요?
표 인식은 Table Detection(표 영역 탐지)과 Table Structure Recognition(행/열 구조 파악)으로 나뉩니다. Microsoft의 Table Transformer, PaddleOCR의 PP-Structure 등이 활용됩니다.
참고 논문
| 논문 | 학회/연도 | 링크 |
|---|---|---|
| OCR-free Document Understanding (Donut) | ECCV 2022 | arXiv:2111.15664 |
| TrOCR | AAAI 2023 | arXiv:2109.10282 |

