시계열 데이터
시계열(Time Series) 데이터는 시간 순서로 기록된 데이터입니다. 주가, 기온, 웹 트래픽, 센서 데이터 등이 대표적입니다. Pandas는 DatetimeIndex를 중심으로 시계열 데이터를 효율적으로 다루는 기능을 제공합니다.학습 목표
- DatetimeIndex를 생성하고 활용할 수 있다
- resample로 시계열 데이터의 빈도를 변환할 수 있다
- 시간대(timezone)를 설정하고 변환할 수 있다
- 날짜 오프셋으로 비즈니스 날짜를 계산할 수 있다
왜 중요한가
시계열 분석은 수요 예측, 재고 관리, 이상 감지 등 다양한 비즈니스 문제의 기초입니다. 시계열 ML 모델(ARIMA, Prophet, LSTM)에 데이터를 공급하려면 올바른 시간 인덱스와 적절한 리샘플링이 필수입니다.DatetimeIndex
resample — 빈도 변환
| 빈도 코드 | 설명 | 예시 |
|---|---|---|
D | 일 | 매일 |
W | 주 | 매주 일요일 |
M | 월말 | 매월 마지막 날 |
MS | 월초 | 매월 1일 |
Q | 분기 | 매 분기말 |
Y | 연말 | 매년 12월 31일 |
H | 시간 | 매시간 |
T / min | 분 | 매분 |
B | 영업일 | 주말 제외 |
시간대 처리
날짜 오프셋
AI/ML에서의 활용
- 시계열 피처: lag 피처, 이동평균 등을 생성하여 시계열 모델에 입력합니다
- 학습/검증 분할: 시계열은 시간순으로 분할하여 데이터 누수를 방지합니다
- 리샘플링: 불규칙한 시계열을 균등 간격으로 변환하여 모델에 입력합니다
- 계절성 분석: 월별, 요일별 패턴을 피처로 활용합니다
resample과 groupby의 차이는 무엇인가요?
resample과 groupby의 차이는 무엇인가요?
resample()은 시간 기반 그룹화 전용이며 DatetimeIndex가 필요합니다. groupby(df.index.month)로도 비슷한 결과를 얻을 수 있지만, resample이 시계열 특화 기능(업샘플링, 보간 등)을 더 많이 지원합니다.시계열 데이터를 학습/검증으로 나눌 때 주의할 점은?
시계열 데이터를 학습/검증으로 나눌 때 주의할 점은?
시계열 데이터는 반드시 시간순으로 분할해야 합니다. 무작위 분할을 사용하면 미래 데이터로 과거를 예측하는 데이터 누수(data leakage)가 발생합니다.
체크리스트
- DatetimeIndex를 생성하고 날짜 기반 슬라이싱을 할 수 있다
- resample로 데이터 빈도를 변환할 수 있다
- 주요 빈도 코드(D, W, M, Q)를 활용할 수 있다
- 시간대를 설정하고 변환할 수 있다
- 시계열 데이터의 학습/검증 분할 시 주의사항을 이해한다

