[2604.04385] How Alignment Routes: Localizing, Scaling, and Controlling Policy Circuits in Language Models

핵심 요약

이 논문은 정렬된 언어 모델 내에서 거절 정책이 활성화되는 ‘정책 라우팅’ 메커니즘을 규명하였습니다. 중간 계층의 어텐션 게이트가 특정 콘텐츠를 감지하면 심층부의 증폭 헤드를 트리거하여 거절 신호를 강화하는 회로 구조가 12개의 주요 모델에서 공통적으로 발견되었습니다. 특히 암호화된 입력(cipher)을 통해 이 감지 레이어를 우회할 경우 모델의 안전 가드레일이 무력화됨을 실험적으로 증명했습니다.

학습자 관점 포인트

우리 팀 영향: 모델의 안전 메커니즘이 특정 회로에 국한되어 있음을 이해함으로써, 취약점 분석 및 정렬 제어 기술 고도화에 기여할 수 있습니다.

권장 액션: 실험

액션 근거: 다양한 규모의 모델에서 공통된 라우팅 회로가 발견되었으므로, 제안된 인터체인지 테스트를 통해 자사 모델의 안전 회로를 식별하고 제어 가능성을 검증할 가치가 있습니다.

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2604.04385] How Alignment Routes: Localizing, Scaling, and Controlling Policy Circuits in Language Models

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크