GroupBy 연산 패턴 - 배움 에이아이

GroupBy는 agg만 아는 상태와 agg/transform/filter/apply를 구분해서 쓰는 상태의 생산성 차이가 큽니다. 이 문서는 자주 쓰는 연산 패턴을 한 번에 정리합니다.

핵심 구분

메서드	출력 형태	주 용도
`agg`	그룹당 1행	집계 리포트
`transform`	원본과 같은 길이	행 단위 피처 생성
`filter`	원본 일부 행	조건 기반 그룹 제거
`apply`	자유 형태	복합 로직

패턴 예시

# 1) agg: 그룹 요약
summary = (
    df.groupby("segment")
      .agg(avg_sales=("sales", "mean"), p90_sales=("sales", lambda s: s.quantile(0.9)))
      .reset_index()
)

# 2) transform: 그룹 내 표준화
mean_by_seg = df.groupby("segment")["sales"].transform("mean")
std_by_seg = df.groupby("segment")["sales"].transform("std")
df["sales_z"] = (df["sales"] - mean_by_seg) / std_by_seg

# 3) filter: 샘플 수가 작은 그룹 제거
df_filtered = df.groupby("segment").filter(lambda g: len(g) >= 30)

apply를 줄이는 기준

apply는 유연하지만 느립니다. 먼저 agg, transform, where, np.select 조합으로 대체 가능한지 확인합니다.

이어서 볼 문서

GroupBy와 집계

groupby 기본 문법과 집계 함수 사용법을 정리합니다.

윈도우 함수

시점 순서를 반영한 이동 집계 패턴을 다룹니다.

GroupBy와 집계 Grouper 집계

​핵심 구분

​패턴 예시

​apply를 줄이는 기준

​이어서 볼 문서