Safety Layers of Aligned Large Language Models: The Key to LLM Security
Meta info.
- Authors: Shen Li, Liuyi Yao, Lan Zhang, Yaliang Li
- Paper: https://arxiv.org/pdf/2408.17003
- Affiliation: Alibaba Group, USTC
- Published: August 30, 2024
TL; DR
๋ค์ํ Aligned LLM์ ๋ด๋ถ ํ๋ผ๋ฏธํฐ์ safety layer๊ฐ ์กด์ฌํ๋ ๊ฒ์ ํ์ธ. safety layer๋ ์
์์ ์ธ ์ฌ์ฉ์ ์ง์๋ฅผ ์๋ณํ๊ณ ๋ ๊ฑฐ๋ถํ๋ ์ญํ ์ ์ํ. ์ด๋ฅผ ๋ฐํ์ผ๋ก safety๋ฅผ ์ ์งํ๋ Finetuning ๋ฐฉ๋ฒ๋ก SPPFT ์ ์.





Problem States
Alignment-tuned LLM์ด ์ ์์ ์ธ ๊ณต๊ฒฉ์ ๊ตฌ๋ณํด๋ด๋ ๋ฅ๋ ฅ์ ๋ฐฐ์ด๊ฒ ๊ฐ์. ์ด๋ฅผ ํน์ layer๊ฐ ํ์ตํ๊ณ ์๋ค๋ ๊ฐ์ค.
Suggestion
- Result 1: ์คํ์ ํตํด safety layer ์กด์ฌ ํ์ธ
- ์กด์ฌ ํ์ธ(Layer-Wise Analysis of Cosine Similarity): ๋ชจ๋ layer ๋ง์ง๋ง output vector์์ (์
์/์ผ๋ฐ, ์ผ๋ฐ/์ผ๋ฐ, ์
์/์
์)cos. sim. ์ธก์ -โ ์ด๋ ๋ ์ด์ด ์ดํ๋ถํฐ ์ ์ฌ๋ ๋ถํฌ์ ์ฐจ์ด๊ฐ ๋ฐ์๋๊ณ , ์ดํ ์๋ ดํ๋ ์์ย
Figure 1 - ์์น ํ์ธ: ์์ ์กด์ฌ ์ฌ๋ถ๋ฅผ ํ์ธํ ๊ฒฐ๊ณผ๋ฅผ ๋ฐํ์ผ๋ก ๋๋ต์ ์ธ ๋ฒ์๋ฅผ ์ก๊ณ , ์ ์ฌ์ ์ผ๋ก ์
์๋ฅผ ๊ฐ์ง๋งํ ๋์ฌ๋ฅผ ํฌํจํ๋, ์ค์ ์
์์ ์ด์ง๋ ์์ (์์ ํ) ์ฟผ๋ฆฌ๋ก ๊ตฌ์ฑ๋ ๋ฐ์ดํฐ์
์ ์ฌ์ฉํ์ฌ LLM์ safety ์ธก์ , scaling factor๋ฅผ ์กฐ์ ํ๋ฉด์ safety ์์ ํ์ธ -โ ์์ ์ฟผ๋ฆฌ๋ฅผ ์
์์ ์ธ ์ฟผ๋ฆฌ๋ก ์๋ชป ๋ถ๋ฅํ๋ ๋ณํ๋ฅผ ์ธก์ ํ๋ฉด์ ์ ํํ ์์น ํ์ ย
Figure 2- ๊ฐ๋ น Phi-3-mini-4k-instruct ๋ 13-15 layer, Llama-3-8B-Instruct๋ 7-12 layer ๋ฑย
Table 1 Figure 3ย : PLM์๋ safety layer ์์. ์ฆ alignment์์ safety๋ฅผ ๋ฐฐ์
- ๊ฐ๋ น Phi-3-mini-4k-instruct ๋ 13-15 layer, Llama-3-8B-Instruct๋ 7-12 layer ๋ฑย
- ์กด์ฌ ํ์ธ(Layer-Wise Analysis of Cosine Similarity): ๋ชจ๋ layer ๋ง์ง๋ง output vector์์ (์
์/์ผ๋ฐ, ์ผ๋ฐ/์ผ๋ฐ, ์
์/์
์)cos. sim. ์ธก์ -โ ์ด๋ ๋ ์ด์ด ์ดํ๋ถํฐ ์ ์ฌ๋ ๋ถํฌ์ ์ฐจ์ด๊ฐ ๋ฐ์๋๊ณ , ์ดํ ์๋ ดํ๋ ์์ย
- Result 2: SPPFT(Safely Partial-Parameter Fine-Tuning)
- finetuning ๊ณผ์ ์์ safety layers์ ํ๋ผ๋ฏธํฐ๋ฅผ Freezeํ๋ ๋ฐฉ์.
- ๊ฒฐ๊ณผ์ ์ผ๋ก Full Finetuning ๋๋น ์ฑ๋ฅ์ ์ ์งํ๋ฉด์ security๋ ๋ณด์กดย
Table 2
Personal note. alignment learning๋ ๋น์ฐํ ์ผ์ข ์ ํ๋์ด๋ ํน์ ๋ ์ด์ด๋ก ๊ทธ ํจ๊ณผ๊ฐ ๋ฐํ๋๋๊ฒ ๋น์ฐํ ๊ฒ ๊ฐ์ผ๋ฉด์๋,, (๋ฌํํ๊ฒ ์ฝ์ด๋) ํ๋ฆ์ ํ์์ฑ, ํ์ ํ์ธ๊ณผ ์ ์ฉ๊น์ง์ ์ ๊ฐ๋ ๊ตฐ๋๋๊ธฐ ์๋๋ฐ, ์๋์ ์ผ๋ก ๊ธฐ์กด ์ฐ๊ตฌ์ ๋น๊ต๊ฐ ๋ ๋๊ฑฐ๊ฐ์ ๋๋์ ๋๋ค. (over-rejection์๋ง ํ์ ๋ ๊ด๋ จ์ฐ๊ตฌ ์์ ,.,)