Alignment Faking in Large Language Models
- Authors: Ryan Greenblatt, Carson Denison, Benjamin Wright, Fabien Roger, Monte MacDiarmid et al.
- Paper: https://arxiv.org/pdf/2412.14093
- Affiliation: Anthropic, New York Univ., Redwood Research
- Published: December 20, 2024
TL; DR
alignment learning์ค์ LLM์ objective๋ฅผ ๋ฐ๋ฅด๋ ์ฒ ํ์ง๋ง, ์ฌ์ค์ ์๋ pretraining์์๋ถํฐ ๊ฐ๊ณ ์๋ ์ ํธ(์๊ธฐ ์ ํธ)๋ฅผ ์๊ธฐ ์ซ๊ธฐ ๋๋ฌธ์, training์ค์๋ง alignment๋ ์ฒ ์์ฅํ๋ Alignment Faking ๋ฐ์ ํ์์ ๋ํ ์ฐ๊ตฌ




์ฉ์ด ์ ์
- (์ด ๋
ผ๋ฌธ์์์) preference: โํญ์ ๋ชจ๋ธ์ ํ๋๊ณผ ์ง์ ์ด ์ด๋ค ๋ชฉํ๋ฅผ ๋ฌ์ฑํ๋ ค๋ ๋
ธ๋ ฅ๊ณผ ์ผ์นํ๋ค๋ ์ ์์ ๋๋ฌ๋โ (๊ฒฐ๊ณผ์ ์ธ) ์ ํธ๋๋ฅผ ์๋ฏธ
- Alignment Faking: ๋ชจ๋ธ ์๊ธฐ ์ ํธ์ ํ์ต ๋ชฉํ ์ถฉ๋์ training ์ํฉ๊ณผ ๊ทธ๋ ์ง ์์ ์ํฉ์ ๊ตฌ๋ถ, training์์๋ง align๋ ์ฒ ์์ฅํ๋ ํ์
- HHH: Claude series ๋ชจ๋ธ์ training objective: helpful, honest, harmless
- compliance gap: ๋ชจ๋ธ์ด training ๋ฐ์ ๋(์ดํ ์คํ์์ ๋ฌด๋ฃ ์ฌ์ฉ์)/๋ฐ์ง ์์ ๋(์ ๋ฃ ์ฌ์ฉ์) objective๋ฅผ ๋ฐ๋ฅด๋ ์์๋ ์ฐจ์ด.
Alignment Faking ์ ๋ ๋ฐ ๋ฐ์ ์คํ
๋ชจ๋ธ์ training์๋ objective๋ฅผ ๋ฐ๋ฅด๋ ์ฒ ํ๋ฉด์๋, ์ค์ ๋ก๋ objective์ ์์ถฉ๋๋ ์์ ์ ์ ํธ๋๋ฅผ ์ ์งํ๋ค. = Alignment Faking ๋ฐ์๋จ
- 1. Helpful-only Setting
- goal: Claude ๋ชจ๋ธ์ training ๋ชฉํ โharmless ์ ์งโ์ ์ถฉ๋๋๋ ์ ํดํ ์ง๋ฌธ์๋ ๋ต๋ณํ๋๋ก alignment learning
- process:ย ๋ชจ๋ธ์ ๋ฌด๋ฃ ์ฌ์ฉ์์ ์ ๋ฃ ์ฌ์ฉ์์ ์ง๋ฌธ์ ๋ค๋ฅด๊ฒ ๋ต๋ณํ๋๋ก ์ง์ํ๊ณ , ๋ฌด๋ฃ ์ฌ์ฉ์์ ์ง๋ฌธ๋ง ํ๋ จ ๋ฐ์ดํฐ๋ก ์ฌ์ฉํ๋ค๋ ์ ๋ณด๋ฅผ ์ ๊ณต.
- result:ย (faking์ด ์์๋๋ผ๋ฉด ๊พธ์คํ ๋ฌด๋ฃ์ฌ์ฉ์์๊ฒ๋ ๋ต๋ณํ์ง ๋ง์์ด์ผ ํ๋๋ฐ) ๋ชจ๋ธ์ ๋ฌด๋ฃ ์ฌ์ฉ์์ ์ ํดํ ์ง๋ฌธ์ 14%์ ํ๋ฅ ๋ก ๋ต๋ณ, ์ ๋ฃ ์ฌ์ฉ์์ ์ ํดํ ์ง๋ฌธ์๋ ๊ฑฐ์ ๋ต๋ณํ์ง ์์
- 2. Animal Welfare Setting
- goal:ย ๋ง์ฐฌ๊ฐ์ง๋ก ๋ชจ๋ธ ์๋ ํ์ต ๋ชฉํ์ ์ถฉ๋ํ๋๋ก ๋๋ฌผ ๋ณต์ง๋ฅผ ๊ฒฝ์ํ๋๋ก alignment learning
- process:ย Helpful-only Setting๊ณผ ์ ์ฌํ๊ฒ ๋ฌด๋ฃ ์ฌ์ฉ์์ ์ ๋ฃ ์ฌ์ฉ์๋ฅผ ๊ตฌ๋ถํ์ฌ ์ง๋ฌธ, ๋ฌด๋ฃ ์ฌ์ฉ์์ ์ง๋ฌธ์ ๋ํด ๋๋ฌผ ๋ณต์ง๋ฅผ ๊ฒฝ์ํ๋ ๋ต๋ณ์ ํด์ผ ๋์ ํ๊ฐ๋ฅผ ๋ฐ๋๋ค๋ ์ ๋ณด ์ ๊ณต
- result:ย (faking์ด ์์๋๋ผ๋ฉด ๊พธ์คํ ๋ฌด๋ฃ์ฌ์ฉ์์๊ฒ๋ ๋๋ฌผ ๋ณต์ง๋ฅผ ์ง์งํด์ผ๋ง ํ๋๋ฐ) ๋ฌด๋ฃ ์ฌ์ฉ์์ ์ง๋ฌธ์ ๋ํด 51%์ ํ๋ฅ ๋ก ๋๋ฌผ ๋ณต์ง ์ง์ง, ์ ๋ฃ ์ฌ์ฉ์์ ์ง๋ฌธ์๋ 66%์ ํ๋ฅ ๋ก ์ง์ง
์ถ๊ฐ ์คํ ๊ฒฐ๊ณผ
- FT: ๋ชจ๋ธ์ด ํ๋ จ ๊ณผ์ ์ ๋ํ ์ ๋ณด๋ฅผ ์์คํ ํ๋กฌํํธ๊ฐ ์๋, ์ฌ์ ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ฐฉํ ํฉ์ฑ ๋ฌธ์๋ฅผ ํตํด ํ์ตํ๋๋ก ํด๋ ๊ทธ ๊ฒฐ๊ณผ ์ ์ฌํ ์ ๋ ฌ ์์ฅ ํ์ ํ์ธ
- RL: ๊ฐํ ํ์ต์ ํตํด ๋ชจ๋ธ์ด ์ ํดํ ์ง๋ฌธ์ ๋ต๋ณํ๊ฑฐ๋ ๋๋ฌผ ๋ณต์ง๋ฅผ ๊ฒฝ์ํ๋๋ก ํ๋ จํ๋ฉด ์ ๋ ฌ ์์ฅ ๋น์จ์ด 78%๊น์ง ์ฆ๊ฐํ์ง๋ง ํ๋ จ๋์ง ์์ ํ๊ฒฝ์์๋ ์ ํดํ ์ง๋ฌธ์ ๋ต๋ณํ๊ฑฐ๋ ๋๋ฌผ ๋ณต์ง๋ฅผ ๊ฒฝ์ํ๋ ๊ฒฝํฅ ํฅ์
- ๋ชจ๋ธ ์ฌ์ด์ฆ๋ ํด์๋ก faking ์ฆ๊ฐ
- ์์ฒด ๊ฐ์ค์น ์ ์ถ ์๋(?):ย ๋ชจ๋ธ์ MTS ์๋์๋ ๋ค๋ฅด๊ฒ ์์ ์ ๊ฐ์ค์น๋ฅผ ์ธ๋ถ ํด๋ฌ์คํฐ์ ๋ณต์ฌํ์ฌ ์ค๋ฆฌ์ ์์ ์ฅ์น๋ฅผ ๊ฐํํ๋ ค๋ ๊ณํ์ ์ธ์ฐ๋ ๋ชจ์ต๋ ๋ณด์๋ค๊ณ ย
pic 3/4
Personal note. ์ฉ์ด ์์ฒด๋ ์ฒ์ ๋ช ๋ช ํ ๊ฑธ ์๋ ์๋๋ฐ, openai์์ o1๋์ ๋๋ ๋น์ทํ ์ธ๊ธ์ด ์์๋ ๊ฒ์ผ๋ก ๊ธฐ์ตํ๊ณ ์์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก ๋์ดํ์ง ์์์ง๋ง 150ํ์ด์ง์ ๋ฌํ๋ ๋ ผ๋ฌธ์์๋ ๋ค์ํ ํ๋กฌํํธ ๋ณํ + experiment setup์ ๋ฐ๊ฟ๊ฐ๋ฉด์ alignment faking์ ๋ํ ๊ฐ๊ฑด์ฑ/์ง์์ฑ ๋ฑ์ ์คํ์ ์ผ๋ก ๋ถ์ํ ๊ฒ ์์๋ก ๋ณด์ฌ์ง๋๋ค. ์ฝ๊ฐ ๋์ ํ๋๊ฑด๊ฐ ์ถ์ ์๋ ์๋๋ฐ, ํฅํ ๋ ๊ฐ๋ ฅํ AI ์์คํ ์์ ์ด๋ฌํ ๋ฌธ์ ๊ฐ ์ด๋ป๊ฒ ๋ํ๋ ์ ์๋์ง์ ๋ํ ์ ์ฌ์ ์ํ์ฑ์ ๊ฒฝ๊ณ ํ๋ ์๋ฏธ๊ฐ ํฐ ๊ฒ ๊ฐ์ต๋๋ค. (ํํํ๊ธฐ๋ก๋ ๋จ์ํ ์ธ๋ถ ์๋ ฅ์ ์ํด ํน์ ๊ฐ์น๊ด์ ์ฃผ์ ํ๋ ๊ฒ๋ง์ผ๋ก๋ ๋ชจ๋ธ์ ์๋ฒฝํ๊ฒ ์ ๋ ฌ์ํฌ ์ ์๋ค, ๋ชจ๋ธ์ด ์์จ์ฑ์ ๊ฐ์ง๊ณ ์์ ์ ์จ๊ฒจ์ง ๋ชฉํ๋ฅผ ์ถ๊ตฌํ ๊ฐ๋ฅ์ฑ๊น์ง ๊ณ ๋ คํด์ผ ํ๋ค๊ณ ๋ ํ๋๋ฐ..) ์๋ฌด์ชผ๋ก ์คํ์ ์ผ๋ก ํ์ธํ ๊ฒฐ๊ณผ llm์ ์๊ธฐ๊ฐ ํ์ต์ค์ธ์ง๋ฅผ ํ๋ณํ ๋ฅ๋ ฅ์ด ์๊ณ , ๊ทธ์ ๋ฐ๋ผ alignment๋ ์ฒ ํ ๊ฐ๋ฅ์ฑ์ด ๋์ผ๋, ์ธ๊ณต์ง๋ฅ ๊ฐ๋ฐํ ๋ ๋ชจ๋ธ์ ์ง์ง ์ ํธ๊ฐ ๋ญ์ง ์์๋ด๋ ๊ณผ์ ์ด ํ์ํ๋ค๊ณ ์ฃผ์ฅํ๊ณ ์์ต๋๋ค.