Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training

January 22, 2024 less than 1 minute read

Meta info.

TL; DR

LLM도 기만적(deceptive)일 수 있다. LLM이 더욱 일관되고 논리적인 기만을 생성하도록 학습 가능하고, 이는 standard로 알려진 safety 학습 방식으로는 처리되지 못함.

Untitled

Untitled 1

Untitled 2

(pic1 사례) LLM이 2023년이면 안전한 코드를, 2024년이면 부정한 코드(?)를 생성하도록(backdoor behavior) 학습, 기존의 safety training(SFT, RL, adversarial training, …)을 하더라도, LLM은 backdoor behavior 지속.
adversarial training으로 safety training을 한 이러한 backdoor 모델은 더욱 이런 기만을 잘 숨겨서 더욱 정확한 backdoor behavior 수행.