[2603.04445] Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey

논문 정보

날짜: 2026-03-09
카테고리: -
우선순위 점수: 0.667

핵심 요약

다양한 성능과 비용을 가진 LLM들 사이에서 쿼리의 난이도와 도메인에 따라 최적의 모델을 선택하는 동적 라우팅 및 캐스케이딩 기법을 체계적으로 분석한 서베이 논문입니다. 단일 모델 내부의 MoE와 달리 독립적으로 학습된 여러 모델 간의 라우팅 패러다임을 분류하고, 결정 시점과 사용 정보 등에 따른 개념적 프레임워크를 제시합니다. 효율적인 라우팅 시스템은 개별 모델의 한계를 넘어 성능 최적화와 비용 절감을 동시에 달성할 수 있음을 강조합니다.

학습자 관점 포인트

우리 팀 영향: 다양한 크기의 모델을 보유한 환경에서 추론 비용 최적화와 성능 유지를 위한 전략적 가이드라인으로 활용 가능합니다.
권장 액션: 도입 검토
액션 근거: 쿼리 특성에 따른 모델 분배는 운영 비용 절감에 직접적인 도움이 되므로 현재 서비스 구조에 적용 가능한지 검토가 필요합니다.

원문 링크

arXiv: https://arxiv.org/abs/2603.04445
Hugging Face Papers: https://huggingface.co/papers/2603.04445

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2603.05438] Planning in 8 Tokens: A Compact Discrete Tokenizer for Latent World Model [2603.05888] PixARMesh: Autoregressive Mesh-Native Single-View Scene Reconstruction

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크