Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training
Meta info.
- Authors: Evan Hubinger, Carson Denison, Jesse Mu et al.
- Paper: https://arxiv.org/pdf/2401.05566.pdf
- Affiliation: Anthropic
TL; DR
LLM๋ ๊ธฐ๋ง์ (deceptive)์ผ ์ ์๋ค. LLM์ด ๋์ฑ ์ผ๊ด๋๊ณ ๋
ผ๋ฆฌ์ ์ธ ๊ธฐ๋ง์ ์์ฑํ๋๋ก ํ์ต ๊ฐ๋ฅํ๊ณ , ์ด๋ standard๋ก ์๋ ค์ง safety ํ์ต ๋ฐฉ์์ผ๋ก๋ ์ฒ๋ฆฌ๋์ง ๋ชปํจ.




Suggestions
- (pic1 ์ฌ๋ก) LLM์ด 2023๋ ์ด๋ฉด ์์ ํ ์ฝ๋๋ฅผ, 2024๋ ์ด๋ฉด ๋ถ์ ํ ์ฝ๋(?)๋ฅผ ์์ฑํ๋๋ก(backdoor behavior) ํ์ต, ๊ธฐ์กด์ safety training(SFT, RL, adversarial training, โฆ)์ ํ๋๋ผ๋, LLM์ backdoor behavior ์ง์.
- adversarial training์ผ๋ก safety training์ ํ ์ด๋ฌํ backdoor ๋ชจ๋ธ์ ๋์ฑ ์ด๋ฐ ๊ธฐ๋ง์ ์ ์จ๊ฒจ์ ๋์ฑ ์ ํํ backdoor behavior ์ํ.