논문 정보
- 날짜:
2026-02-26 - 카테고리: -
- 우선순위 점수: 1.367
핵심 요약
에이전트형 LLM 추론 시 발생하는 스토리지 대역폭 병목 현상을 해결하기 위해 DualPath 시스템을 제안합니다. 기존의 스토리지-프리필 경로 외에 스토리지-디코딩 경로를 추가하여, 유휴 상태인 디코딩 엔진의 대역폭을 활용하고 RDMA를 통해 데이터를 전송합니다. 이를 통해 오프라인 처리량은 최대 1.87배, 온라인 서비스 처리량은 평균 1.96배 향상되었습니다.학습자 관점 포인트
- 우리 팀 영향: KV-Cache 로딩 병목이 발생하는 대규모 에이전트 서비스 환경에서 인프라 효율성을 극대화하고 처리량을 두 배 가까이 높일 수 있습니다.
- 권장 액션: 도입 검토
- 액션 근거: 분리형 아키텍처에서 발생하는 스토리지 I/O 불균형 문제를 네트워크 경로 최적화로 해결한 실용적인 접근법이기 때문입니다.
원문 링크
- arXiv: https://arxiv.org/abs/2602.21548
- Hugging Face Papers: https://huggingface.co/papers/2602.21548

