[2603.25398] PMT: Plain Mask Transformer for Image and Video Segmentation with Frozen Vision Encoders

논문 정보

날짜: 2026-03-29
카테고리: -
우선순위 점수: 0.033

핵심 요약

PMT는 고정된 비전 파운데이션 모델(VFM) 인코더 위에서 작동하는 경량 트랜스포머 기반 세그멘테이션 디코더인 PMD를 제안합니다. 인코더를 튜닝하지 않고도 이미지와 비디오 세그멘테이션 모두에서 높은 효율성을 유지하며, 기존 인코더 전용 모델의 단순성과 속도를 계승합니다. 이미지 세그멘테이션에서는 기존 모델 대비 최대 3배, 비디오에서는 최대 8배 빠른 속도를 기록하면서도 경쟁력 있는 성능을 보여줍니다.

학습자 관점 포인트

우리 팀 영향: 고정된 인코더를 공유하면서도 다중 태스크를 수행할 수 있어 대규모 배포 시 인프라 비용 절감과 추론 속도 향상에 기여할 수 있습니다.
권장 액션: 실험
액션 근거: 기존 VFM 인코더를 그대로 활용하면서도 비디오 세그멘테이션에서 압도적인 속도 향상을 보였다는 점에서 실시간 서비스 적용 가능성을 검증할 가치가 있습니다.

원문 링크

arXiv: https://arxiv.org/abs/2603.25398
Hugging Face Papers: https://huggingface.co/papers/2603.25398

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2603.13904] Pixel-level Scene Understanding in One Token: Visual States Need What-is-Where Composition [2603.24836] WAFT-Stereo: Warping-Alone Field Transforms for Stereo Matching

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크