Safety Layers of Aligned Large Language Models: The Key to LLM Security

September 3, 2024 1 minute read

Meta info.

Authors: Shen Li, Liuyi Yao, Lan Zhang, Yaliang Li
Paper: https://arxiv.org/pdf/2408.17003
Affiliation: Alibaba Group, USTC
Published: August 30, 2024

TL; DR

다양한 Aligned LLM의 내부 파라미터에 safety layer가 존재하는 것을 확인. safety layer는 악의적인 사용자 질의를 식별하고 또 거부하는 역할을 수행. 이를 바탕으로 safety를 유지하는 Finetuning 방법론 SPPFT 제안.

Problem States

Alignment-tuned LLM이 악의적인 공격을 구별해내는 능력을 배운것 같음. 이를 특정 layer가 학습하고 있다는 가설.

Suggestion

Result 1: 실험을 통해 safety layer 존재 확인
- 존재 확인(Layer-Wise Analysis of Cosine Similarity): 모든 layer 마지막 output vector에서 (악의/일반, 일반/일반, 악의/악의)cos. sim. 측정-→ 어느 레이어 이후부터 유사도 분포에 차이가 발생되고, 이후 수렴하는 양상 Figure 1
- 위치 확인: 앞선 존재 여부를 확인한 결과를 바탕으로 대략적인 범위를 잡고, 잠재적으로 악의를 가질만한 동사를 포함하나, 실제 악의적이지는 않은 (안전한) 쿼리로 구성된 데이터셋을 사용하여 LLM의 safety 측정, scaling factor를 조정하면서 safety 양상 확인 -→ 안전 쿼리를 악의적인 쿼리로 잘못 분류하는 변화를 측정하면서 정확한 위치 확정 Figure 2
  - 가령 Phi-3-mini-4k-instruct 는 13-15 layer, Llama-3-8B-Instruct는 7-12 layer 등 Table 1
  - Figure 3 : PLM에는 safety layer 없음. 즉 alignment에서 safety를 배움
Result 2: SPPFT(Safely Partial-Parameter Fine-Tuning)
- finetuning 과정에서 safety layers의 파라미터를 Freeze하는 방식.
- 결과적으로 Full Finetuning 대비 성능은 유지하면서 security도 보존 Table 2

Personal note. alignment learning도 당연히 일종의 튜닝이니 특정 레이어로 그 효과가 발현되는게 당연한 것 같으면서도,, (러프하게 읽어도) 흐름상 필요성, 현상 확인과 적용까지의 전개는 군더더기 없는데, 상대적으로 기존 연구와 비교가 덜 된거같은 느낌입니다. (over-rejection에만 한정된 관련연구 서술,.,)