[2603.13904] Pixel-level Scene Understanding in One Token: Visual States Need What-is-Where Composition

논문 정보

날짜: 2026-03-27
카테고리: -
우선순위 점수: 0.0

핵심 요약

로봇 에이전트의 의사결정을 위해 장면 내 객체의 정체성과 위치 정보를 동시에 인코딩하는 시각적 상태 표현 프레임워크인 CroBo를 제안합니다. 글로벌-투-로컬 재구성 목적 함수를 통해 압축된 단일 토큰이 세밀한 장면 구성 정보를 포함하도록 학습합니다. 다양한 로봇 정책 학습 벤치마크에서 우수한 성능을 보이며 픽셀 수준의 장면 이해 능력을 입증했습니다.

학습자 관점 포인트

우리 팀 영향: 단일 토큰 기반의 효율적인 시각적 상태 표현 방식을 통해 로봇 제어 모델의 연산 효율성과 정확도를 동시에 개선할 수 있습니다.
권장 액션: 실험
액션 근거: 제시된 글로벌-투-로컬 재구성 방식이 기존의 자기지도학습 모델 대비 로봇 조작 작업에서 실질적인 성능 향상을 가져오는지 검증이 필요합니다.

원문 링크

arXiv: https://arxiv.org/abs/2603.13904
Hugging Face Papers: https://huggingface.co/papers/2603.13904

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2603.21768] Extending Precipitation Nowcasting Horizons via Spectral Fusion of Radar Observations and Foundation Model Priors [2603.25040] Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크