Series와 DataFrame
Pandas의 모든 기능은 두 가지 핵심 데이터 구조 위에 구축되어 있습니다. Series는 인덱스가 있는 1차원 배열이고, DataFrame은 여러 Series가 열로 결합된 2차원 표입니다. 이 두 구조를 정확히 이해하는 것이 Pandas 활용의 출발점입니다.학습 목표
- Series와 DataFrame의 구조적 차이를 설명할 수 있다
- 다양한 방법으로 Series와 DataFrame을 생성할 수 있다
- 핵심 속성(shape, dtypes, index, columns)을 활용할 수 있다
- head, tail, info, describe로 데이터를 빠르게 탐색할 수 있다
왜 중요한가
ML 프로젝트에서 데이터는 대부분 CSV, 데이터베이스, API에서 DataFrame 형태로 로드됩니다. DataFrame의 구조를 이해해야 피처(열)를 선택하고, 샘플(행)을 필터링하고, 데이터를 변환할 수 있습니다. sklearn의 많은 함수도 DataFrame을 입력으로 받습니다.Series
Series는 인덱스(index)와 값(values)의 쌍으로 이루어진 1차원 구조입니다.Series 속성
DataFrame
DataFrame은 열(column)마다 서로 다른 dtype을 가질 수 있는 2차원 표 구조입니다.DataFrame 속성
데이터 빠르게 탐색하기
열 선택과 추가
AI/ML에서의 활용
- 피처 행렬: DataFrame의 수치형 열을
df[feature_cols].values로 추출하여 sklearn에 전달합니다 - 타겟 변수: 예측 대상 열을 Series로 분리합니다:
y = df['target'] - 데이터 탐색:
info(),describe(),value_counts()로 데이터 품질을 빠르게 파악합니다 - 메타데이터:
dtypes와shape으로 피처의 타입과 데이터셋 크기를 확인합니다
Series와 DataFrame은 어떤 관계인가요?
Series와 DataFrame은 어떤 관계인가요?
DataFrame은 같은 인덱스를 공유하는 여러 Series의 모음입니다.
df['column_name']으로 접근하면 해당 열의 Series를 반환합니다. Series는 DataFrame의 구성 요소이면서 독립적으로도 사용됩니다.object dtype은 무엇인가요?
object dtype은 무엇인가요?
object는 Pandas에서 문자열이나 혼합 타입 데이터에 사용되는 dtype입니다. 문자열 전용 dtype인 StringDtype (pd.StringDtype())도 있지만, 아직은 object가 기본값입니다.체크리스트
- Series와 DataFrame의 구조적 차이를 설명할 수 있다
- 딕셔너리, 리스트, NumPy 배열에서 DataFrame을 생성할 수 있다
- shape, dtypes, columns, index 속성을 활용할 수 있다
- head(), info(), describe()로 데이터를 빠르게 파악할 수 있다
- 열의 선택, 추가, 삭제를 수행할 수 있다

