[2603.25741] Vega: Learning to Drive with Natural Language Instructions

논문 정보

날짜: 2026-03-29
카테고리: -
우선순위 점수: 0.733

핵심 요약

Vega는 사용자 지시사항을 따르는 자율주행을 위해 10만 개의 시나리오를 포함한 InstructScene 데이터셋을 구축하고 새로운 모델 구조를 제안합니다. 시각 및 언어 입력은 자기회귀 방식으로 처리하며, 미래 예측과 궤적 생성은 디퓨전 모델을 활용하여 통합적인 의사결정을 수행합니다. 실험 결과, 기존 모델들보다 우수한 계획 성능과 정교한 지시 이행 능력을 입증하였습니다.

학습자 관점 포인트

우리 팀 영향: 사용자의 다양한 자연어 명령에 반응하는 개인화된 자율주행 시스템 구축을 위한 데이터셋과 멀티모달 아키텍처 설계에 참고할 수 있습니다.
권장 액션: 실험
액션 근거: 자기회귀와 디퓨전 패러다임을 결합한 하이브리드 구조가 자율주행의 계획 성능 향상에 기여하는지 검증할 가치가 있습니다.

원문 링크

arXiv: https://arxiv.org/abs/2603.25741
Hugging Face Papers: https://huggingface.co/papers/2603.25741

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2603.24575] VFIG: Vectorizing Complex Figures in SVG with Vision-Language Models [2603.24844] Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크