학습 목표
- DatetimeIndex를 생성하고 활용할 수 있다
- resample로 시계열 데이터의 빈도를 변환할 수 있다
- 시간대(timezone)를 설정하고 변환할 수 있다
- 날짜 오프셋으로 비즈니스 날짜를 계산할 수 있다
왜 중요한가
시계열 분석은 수요 예측, 재고 관리, 이상 감지 등 다양한 비즈니스 문제의 기초입니다. 시계열 머신러닝 모델(ARIMA, Prophet, LSTM)에 데이터를 공급하려면 올바른 시간 인덱스와 적절한 리샘플링이 필수입니다.DatetimeIndex
resample — 빈도 변환
| 빈도 코드 | 설명 | 예시 |
|---|---|---|
D | 일 | 매일 |
W | 주 | 매주 일요일 |
M | 월말 | 매월 마지막 날 |
MS | 월초 | 매월 1일 |
Q | 분기 | 매 분기말 |
Y | 연말 | 매년 12월 31일 |
H | 시간 | 매시간 |
T / min | 분 | 매분 |
B | 영업일 | 주말 제외 |
시간대 처리
날짜 오프셋
AI/ML에서의 활용
- 시계열 피처: lag 피처, 이동평균 등을 생성하여 시계열 모델에 입력합니다
- 학습/검증 분할: 시계열은 시간순으로 분할하여 데이터 누수를 방지합니다
- 리샘플링: 불규칙한 시계열을 균등 간격으로 변환하여 모델에 입력합니다
- 계절성 분석: 월별, 요일별 패턴을 피처로 활용합니다
resample과 groupby의 차이는 무엇인가요?
resample과 groupby의 차이는 무엇인가요?
resample()은 시간 기반 그룹화 전용이며 DatetimeIndex가 필요합니다. groupby(df.index.month)로도 비슷한 결과를 얻을 수 있지만, resample이 시계열 특화 기능(업샘플링, 보간 등)을 더 많이 지원합니다.시계열 데이터를 학습/검증으로 나눌 때 주의할 점은?
시계열 데이터를 학습/검증으로 나눌 때 주의할 점은?
시계열 데이터는 반드시 시간순으로 분할해야 합니다. 무작위 분할을 사용하면 미래 데이터로 과거를 예측하는 데이터 누수(data leakage)가 발생합니다.
체크리스트
- DatetimeIndex를 생성하고 날짜 기반 슬라이싱을 할 수 있다
- resample로 데이터 빈도를 변환할 수 있다
- 주요 빈도 코드(D, W, M, Q)를 활용할 수 있다
- 시간대를 설정하고 변환할 수 있다
- 시계열 데이터의 학습/검증 분할 시 주의사항을 이해한다
다음 문서
윈도우 함수
rolling, expanding, ewm 윈도우 연산을 학습합니다
중복과 이상치
이상치 탐지와 처리를 복습합니다

