OCR과 Document AI

구현

PaddleOCR

from paddleocr import PaddleOCR

# 한국어 + 영어 OCR
ocr = PaddleOCR(use_angle_cls=True, lang='korean')

result = ocr.ocr('document.jpg', cls=True)

for line in result[0]:
    bbox = line[0]        # 텍스트 영역 좌표
    text = line[1][0]     # 인식된 텍스트
    conf = line[1][1]     # 신뢰도
    print(f"[{conf:.2f}] {text}")

EasyOCR

import easyocr

reader = easyocr.Reader(['ko', 'en'])
results = reader.readtext('document.jpg')

for bbox, text, conf in results:
    print(f"[{conf:.2f}] {text}")

OCR 도구 비교

비교 항목	PaddleOCR	EasyOCR	Tesseract	Donut
한국어 지원	우수	우수	보통	좋음
속도	빠름	보통	빠름	느림
정확도	높음	높음	보통	매우 높음
레이아웃 이해	기본	기본	없음	강함
GPU 필요	권장	권장	불필요	필수
추천 용도	범용 OCR	간단한 OCR	레거시	문서 AI

Donut: End-to-End Document Understanding

Donut은 OCR 없이 이미지에서 직접 구조화된 정보를 추출하는 Transformer 모델입니다.

from transformers import DonutProcessor, VisionEncoderDecoderModel
import torch

processor = DonutProcessor.from_pretrained("naver-clova-ix/donut-base-finetuned-cord-v2")
model = VisionEncoderDecoderModel.from_pretrained("naver-clova-ix/donut-base-finetuned-cord-v2")

# 영수증 파싱
from PIL import Image
image = Image.open("receipt.jpg")
pixel_values = processor(image, return_tensors="pt").pixel_values

with torch.no_grad():
    outputs = model.generate(pixel_values, max_length=512)

result = processor.batch_decode(outputs, skip_special_tokens=True)[0]
print(result)  # JSON 구조의 영수증 정보

손글씨 인식도 가능한가요?

가능하지만 인쇄체보다 정확도가 낮습니다. TrOCR(Transformer OCR)이 손글씨 인식에 특화되어 있으며, Hugging Face에서 사전학습 모델을 제공합니다.

표(Table) 인식은 어떻게 하나요?

표 인식은 Table Detection(표 영역 탐지)과 Table Structure Recognition(행/열 구조 파악)으로 나뉩니다. Microsoft의 Table Transformer, PaddleOCR의 PP-Structure 등이 활용됩니다.

논문	학회/연도	링크
OCR-free Document Understanding (Donut)	ECCV 2022	arXiv:2111.15664
TrOCR	AAAI 2023	arXiv:2109.10282

논문

학회/연도

링크

OCR-free Document Understanding (Donut)

ECCV 2022

arXiv:2111.15664

TrOCR

AAAI 2023

arXiv:2109.10282

핵심 아이디어

동작 방식

구현

PaddleOCR

EasyOCR

OCR 도구 비교

Donut: End-to-End Document Understanding

참고 논문

​핵심 아이디어

​동작 방식

​구현

​PaddleOCR

​EasyOCR

​OCR 도구 비교

​Donut: End-to-End Document Understanding

​참고 논문

핵심 아이디어

동작 방식

구현

PaddleOCR

EasyOCR

OCR 도구 비교

Donut: End-to-End Document Understanding

참고 논문