[2603.24257] Memory-Augmented Vision-Language Agents for Persistent and Semantically Consistent Object Captioning

핵심 요약

시점 변화에 따른 객체 설명의 불일치 문제를 해결하기 위해 데이터 연관, 캡셔닝, 탐색 정책을 통합한 메모리 증강형 Vision-Language 에이전트를 제안합니다. 객체 수준의 에피소드 메모리를 토큰화하여 직렬화함으로써 긴 시퀀스에서도 일관된 객체 정체성과 의미론적 일관성을 유지합니다. 자체 지도 학습을 위해 다중 뷰 캡션 이력을 활용한 데이터셋을 구축하였으며, 기존 모델 대비 캡션 점수와 자기 유사성 지표에서 유의미한 성능 향상을 보였습니다.

학습자 관점 포인트

우리 팀 영향: 객체 중심의 메모리 구조를 활용하여 일관성 있는 의미 정보를 생성하는 기술은 로봇 에이전트의 장기적 환경 이해 성능을 높이는 데 기여할 수 있습니다.

권장 액션: 실험

액션 근거: 단일 오토레그레시브 프레임워크 내에서 메모리와 탐색을 통합한 구조가 실제 에이전트의 일관성 유지에 효과적인지 검증이 필요합니다.

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2603.24257] Memory-Augmented Vision-Language Agents for Persistent and Semantically Consistent Object Captioning

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크