[2603.24257] Memory-Augmented Vision-Language Agents for Persistent and Semantically Consistent Object Captioning

핵심 요약

시점 변화에 따른 객체 설명의 불일치 문제를 해결하기 위해 데이터 연관, 캡셔닝, 탐색 정책을 통합한 메모리 증강형 Vision-Language 에이전트를 제안합니다. 객체 수준의 에피소드 메모리를 토큰화하여 직렬화함으로써 긴 시퀀스에서도 일관된 객체 정체성과 의미론적 일관성을 유지합니다. 자체 수집한 3D 환경 데이터셋을 통한 학습 결과, 기존 모델 대비 캡션 점수와 자기 유사성 지표에서 유의미한 성능 향상을 보였습니다.

학습자 관점 포인트

우리 팀 영향: 객체 중심의 메모리 구조를 활용하여 일관된 시각적 이해가 필요한 로봇 에이전트 및 가상 환경 서비스 개발에 참고할 수 있습니다.

권장 액션: 실험

액션 근거: 단일 오토레그레시브 프레임워크 내에서 메모리를 활용해 일관성을 확보하는 방식이 실용적이며 공개된 코드와 가중치를 통해 검증이 가능하기 때문입니다.

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2603.24257] Memory-Augmented Vision-Language Agents for Persistent and Semantically Consistent Object Captioning

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크