[2604.09544] Large Language Models Generate Harmful Content Using a Distinct, Unified Mechanism

논문 정보

날짜: 2026-04-13
카테고리: -
우선순위 점수: 0.067

핵심 요약

LLM의 유해 콘텐츠 생성은 특정 유형에 국한되지 않고 일반화된 소수의 가중치 집합에 의존한다는 사실을 가중치 가지치기 실험을 통해 발견했습니다. 정렬된 모델은 유해성 관련 가중치가 더 압축된 형태를 띠며, 이는 특정 도메인의 미세 조정이 전체적인 정렬 해제를 유발하는 원인이 됩니다. 유해 콘텐츠 생성 능력은 해당 콘텐츠를 인식하고 설명하는 능력과는 내부적으로 분리되어 있음이 확인되었습니다.

학습자 관점 포인트

우리 팀 영향: 모델의 안전성을 확보하기 위해 전체 파라미터가 아닌 유해성 관련 특정 가중치 집합을 타겟팅하여 제어하는 새로운 접근법을 제시합니다.
권장 액션: 실험
액션 근거: 미세 조정 시 발생하는 정렬 해제 문제를 해결하기 위해 유해성 관련 가중치를 식별하고 이를 제거하는 기법의 유효성을 검증할 가치가 있습니다.

원문 링크

arXiv: https://arxiv.org/abs/2604.09544
Hugging Face Papers: https://huggingface.co/papers/2604.09544

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2604.09531] VisionFoundry: Teaching VLMs Visual Perception with Synthetic Images [2604.07786] Cross-Modal Emotion Transfer for Emotion Editing in Talking Face Video

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크