[2604.07023] MARS: Enabling Autoregressive Models Multi-Token Generation

핵심 요약

MARS는 추가 파라미터나 구조 변경 없이 기존 자기회귀 모델이 한 번의 추론으로 여러 토큰을 생성할 수 있게 하는 경량 파인튜닝 기법입니다. 기존의 투기적 디코딩이나 다중 헤드 방식과 달리 단일 모델만 사용하며, 단일 토큰 생성 시에도 성능 저하 없이 베이스라인과 대등하거나 우수한 성능을 보입니다. 배치 추론을 위한 블록 레벨 KV 캐싱을 통해 Qwen2.5-7B 기준 최대 1.71배의 속도 향상을 달성했습니다.

학습자 관점 포인트

우리 팀 영향: 추가적인 모델이나 헤드 없이 파인튜닝만으로 추론 속도를 1.5~1.7배 향상시킬 수 있어 서빙 비용 절감에 기여할 수 있습니다.

권장 액션: 실험

액션 근거: 별도의 아키텍처 수정 없이 기존 모델의 가중치 업데이트만으로 즉시 적용 가능한 효율적인 가속화 기법이기 때문입니다.

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2604.07023] MARS: Enabling Autoregressive Models Multi-Token Generation

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크