[2603.01301] When Does RL Help Medical VLMs? Disentangling Vision, SFT, and RL Gains

핵심 요약

본 논문은 의료용 시각-언어 모델(VLM)에서 강화학습(RL)이 시각적 추론 능력을 실제로 향상시키는지 아니면 기존 SFT의 거동을 정교화하는 것인지 분석했습니다. 연구 결과 RL은 모델이 이미 정답 후보를 생성할 수 있는 상태(높은 Pass@K)일 때 출력 분포를 정교화하여 정확도(Acc@1)를 높이는 데 가장 효과적이었습니다. 이를 바탕으로 SFT로 지원 범위를 넓히고 RL로 효율성을 높이는 경계 인식 학습법을 제안하여 다수의 의료 VQA 벤치마크에서 우수한 성능을 입증했습니다.

학습자 관점 포인트

우리 팀 영향: 의료 도메인 모델 고도화 시 SFT와 RL의 역할을 명확히 구분하여 데이터 구성 및 학습 전략을 최적화하는 가이드라인으로 활용할 수 있습니다.

권장 액션: 실험

액션 근거: SFT와 RL의 상호작용에 대한 분석 결과가 구체적이며, 적은 데이터로도 효율적인 성능 향상이 가능함을 보여주어 실무 적용 가치가 높습니다.

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2603.01301] When Does RL Help Medical VLMs? Disentangling Vision, SFT, and RL Gains

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크