[2604.03995] A Systematic Study of Cross-Modal Typographic Attacks on Audio-Visual Reasoning

논문 정보

날짜: 2026-04-09
카테고리: -
우선순위 점수: 0.6

핵심 요약

오디오-비주얼 멀티모달 거대 언어 모델(MLLM)을 대상으로 한 교차 모달 타이포그래피 공격의 취약성을 체계적으로 분석한 연구입니다. 단일 모달 공격보다 여러 모달을 결합한 협응 공격이 83.43%의 높은 공격 성공률을 보이며 모델의 추론 능력을 심각하게 저해함을 입증했습니다. 다양한 프론티어 MLLM과 상식 추론 및 콘텐츠 중재 벤치마크를 통해 멀티모달 보안의 취약점을 노출했습니다.

학습자 관점 포인트

우리 팀 영향: 멀티모달 모델 개발 시 오디오와 시각 정보 간의 교차 모달 보안 취약점을 방어하기 위한 새로운 안전 가이드라인 수립이 필요합니다.
권장 액션: 실험
액션 근거: 단일 모달 대비 복합 모달 공격의 성공률이 비약적으로 높아 실제 서비스 배포 전 보안 취약점 재현 및 검증이 필수적입니다.

원문 링크

arXiv: https://arxiv.org/abs/2604.03995
Hugging Face Papers: https://huggingface.co/papers/2604.03995

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2604.05060] R3PM-Net: Real-time, Robust, Real-world Point Matching Network [2604.07209] INSPATIO-WORLD: A Real-Time 4D World Simulator via Spatiotemporal Autoregressive Modeling

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크