[2602.16603] FlowPrefill: Decoupling Preemption from Prefill Scheduling Granularity to Mitigate Head-of-Line Blocking in LLM Serving

논문 정보

날짜: 2026-02-25
카테고리: -
우선순위 점수: 1.233

핵심 요약

FlowPrefill은 LLM 서빙 중 prefill 단계에서 발생하는 Head-of-Line(HoL) 블로킹 문제를 해결하기 위해 선점 세분성과 스케줄링 빈도를 분리한 시스템입니다. 연산자 수준의 선점(Operator-Level Preemption)과 이벤트 기반 스케줄링을 통해 고정된 청크 크기의 한계를 극복하고 효율적인 자원 할당을 구현했습니다. 실제 운영 트레이스 평가 결과, 기존 시스템 대비 최대 5.6배의 굿풋(Goodput) 향상을 달성했습니다.

학습자 관점 포인트

우리 팀 영향: 다양한 SLO 요구사항이 있는 환경에서 TTFT 지연을 최소화하면서도 전체 시스템 처리량을 최적화하는 스케줄링 기법을 확보할 수 있습니다.
권장 액션: 실험
액션 근거: 기존 chunked prefill의 효율성 저하 문제를 해결하면서 높은 굿풋 향상을 입증했으므로 실제 서빙 인프라 적용 가능성을 검증할 가치가 있습니다.

원문 링크

arXiv: https://arxiv.org/abs/2602.16603
Hugging Face Papers: https://huggingface.co/papers/2602.16603

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2602.20945] The Art of Efficient Reasoning: Data, Reward, and Optimization [2602.21053] OCR-Agent: Agentic OCR with Capability and Memory Reflection

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크