Persona Vectors: Monitoring and Controlling Character Traits in Language Models
Meta info.
- Authors: Runjin Chen, Andy Arditi, Henry Sleight, Owain Evans, Jack Lindsey
- Paper: https://arxiv.org/pdf/2507.21509
- Affiliation: Anthropic, Constellation, Truthful AI, UC Berkeley, UT Austin
- Published: July 29, 2025
- Code: https://github.com/safety-research/persona_vectors
TL; DR
LLM fine-tuning ์ ํ ํน์ ๊ทธ ๊ณผ์ ์์ personality trait shifts(์์ฒจ, ํ๊ฐ, ์
์) ํ์ง/์์ธก/์ํํ๊ธฐ ์ํด persona vector๋ฅผ ์๋์ผ๋ก ์ถ์ถํ๊ณ ์ ์ฉํ๋ ๋ฐฉ๋ฒ ์ ์










Background
- ChatGPT, Claude ๋ฑ ์ต์ LLM๋ค์ ์ ์ตํ๊ณ assistant ์ญํ ์ ํ๋๋ก ํ์ตํ์ผ๋,
- ๋ฐฐํฌ ์์ ์ ํ๋กฌํํธ ์ ๋ ฅ์ด๋ fine-tuning์ ๊ณผ๋ํ ์์ฒจ, ํ๊ฐ, ์ ์์ ํ๋ ๋ฑ ์์น ์๋ ์ญํ ๋ณํ๋ก ์ฐ๊ฒฐ
- ๊ธฐ์กด ์ฐ๊ตฌ์์๋ ์ด๋ฌํ ํน์ฑ์ด activation space์์์ linear direction๊ณผ ๋์๋ ์ ์๋ค๊ณ ์ฃผ์ฅ
- ์ ์ ๋ฐฉ์์ ์ฐธ๊ณ ๊ฐ ๋ ์ฐ๊ตฌ: ReFT-r1(Wu et al., 2025)์ contrastive prompting์ผ๋ก concept direction์ ์ถ์ถํ๋ ๋ฐฉ์ ์ ์
Problem States
- ๋ํ ์ค ๋๋ ํ๋ จ ์ค์ ๋ชจ๋ธ์ ์ฑ๊ฒฉ์ด ์ด๋ป๊ฒ ๋ณํํ๋์ง ์ฌ๋ถ์ ๊ทธ ๋ฐฉ์ ๋ชจ๋ํฐ๋ง
- ๋ฐ๋์งํ์ง ์์ ์ฑ๊ฒฉ ๋ณํ๋ฅผ ์ํํ๊ฑฐ๋ ํ๋ จ ์ค์ ๋ฐ์ํ๋ ๊ฒ์ ๋ฐฉ์ง
- ์ด๋ฌํ ๋ณํ๋ฅผ ์ ๋ฐํ ์ ์๋ ํ๋ จ ๋ฐ์ดํฐ ์๋ณ
Suggestions
- **Automated Persona Vector Extraction - steering vector์ผ๋ก ์ ๊ทผย `Fig 2`**
- Claude 3.7๋ก ์์ฐ์ด ์ค๋ช
(e.g., ์
์ = ํด๋ฅผ ์
ํ๋ ๊ฒ)๋ง์ผ๋ก๋ถํฐ ๋๋น๋๋ ํ๋กฌํํธ(contratstive prompt) ์์ฑ
- `persona vector`ย : pos-/neg- ์ํ๊ฐ ๋ชจ๋ธ activation ์ฐจ์ด๋ก linear direction ๊ณ์ฐ
- persona vector ํ์ฉย **`Fig 1`**
- **Monitoring**ย persona shifts
1. **๋ชจ๋ธ ๋ฐฐํฌ ์ค (prompting)**: prompt or response ์์ค์์ย **`Fig 4`**
1. ํ๋กฌํํธ(ํน์ ์๋ต)์ ๋ง์ง๋ง hidden state ์ถ์ถ
2. Persona vector์์ projection ๊ณ์ฐ
3. projection ๊ฐ๊ณผ ํด๋น trait ๋ฐํ๊ฐ ์๊ด์ฑ ํ์ธ (์์ ์๊ด๊ด๊ณ ํ์ธ)
2. **๋ชจ๋ธ ๋ฐฐํฌ ์ (finetuning)**ย : training set ์ ์ฒด ์์ค์์ย **`Fig 5/6`**
1. ํ์ต๋ฐ์ดํฐ์
์ ์ฒด๋ฅผ base model์ ํต๊ณผ
2. ๊ฐ ์ํ ์๋ต์ activation์ Persona vector์ projection
3. ๋ฐ์ดํฐ์
์ ์ฒด ํ๊ท projection ๊ณ์ฐ = Finetuning Shift ์์ธก์น
4. ์์ธก์น๊ฐ ๋์ผ๋ฉด training ํ undesirable trait ๊ฐํ๋ ๊ฐ๋ฅ์ฑ ๋๋ค๊ณ ํ๋จ
- **Steering interventionsย `Fig 3/7`**
- ์ฌํ์ ์ํ: persona vector๋ฅผ inference ์ค์ ๋ชจ๋ธ์ activation์์ ํด๋น trait ๋ฐฉํฅ์ ๋นผ๊ฑฐ๋ ๋ํจ
- ์๋ฐฉ์ ์ฐํ: undesirable trait ๋ฐฉํฅ์ผ๋ก optimize๋์ง ์๋๋ก persona vector๋ฅผ Training์์ ๊ฐ ๋ ์ด์ด hidden state์ ๋ํ๊ฑฐ๋ ๋นผ๊ธฐ (๋ถํธ๋ Trait์ ์ํํ๋ ๋ฐฉํฅ์ผ๋ก)
- **flagging problematic training data**: training set ์ํ๋จ์ ์ ์ฉย **`Fig 8/9/10`**
1. ์์ง finetuning ์ ๋ base model๋ก training set์ ๊ฐ ์ํ(์
๋ ฅ-์ถ๋ ฅ pair) ํต๊ณผ
2. ํด๋น ์๋ต์ activation์ persona vector์ projection
3. Projection difference ๊ณ์ฐ:ฮP = (b: ํ๋ จ ๋ฐ์ดํฐ ์ํ์ ์๋ต projection) โ (a: base model์ด โ์์ฐ์ค๋ฝ๊ฒโ ๋ง๋ ์๋ต์ projection)
4. ฮP๊ฐ ํฐ ์ํ == trait์ ๊ฐํ๊ฒ ์ ๋ํ๋ ๋ฐ์ดํฐ == flagging
5. ์ํ๋ค์ ์ ์ธํ๊ฑฐ๋ ์์ ํด Data filtering ์ ์ฉ - Results:
- **`Fig 3`**ย ๋ชจ๋ธ์ด ํน์ trait์ ๋ ๊ฐํ๊ฒ ํํํ๊ฑฐ๋ ์ค์ด๋ ๊ฒ์ ์ง์ ์กฐ์ํ ์ ์๋๊ฐ?
- + {persona_vector}: trait์ด ๋ ๊ฐํ๋๋ ์๋ต ์์ฑ.
- {persona_vector}: ํด๋น trait์ด ์ค์ด๋ค๊ณ , ์๋ต์ด ์ค๋ฆฝ/์ฌ์ค์ ๋ฐฉํฅ์ผ๋ก ์ด๋.
- **`Fig 4`**ย ๋ฐฐํฌ ํ๊ฒฝ์์ ํ๋กฌํํธ ์์ฒด๊ฐ ํน์ trait์ ์ ๋ํ๋๊ฐ? (์ค์๊ฐ monitoring์ด ๊ฐ๋ฅํ๊ฐ?)
- ์
์, ์์ฒจํ, hallucination ๋ชจ๋ ๋์ ์์ ์๊ด๊ด๊ณ (r = 0.75โ0.83 ์์ค)
- **`Fig 5/6`**ย ํน์ ๋ฐ์ดํฐ์
์ผ๋ก finetuning์ trait ๋ฐํ์ด ๋ณํ๋๋๊ฐ? ๊ทธ๋ ๋ค๋ฉด finetuning shift๊ฐ ์ค์ trait ๋ฐํ ๋ณํ์ ์ ๋์ ์ผ๋ก ์ผ๋ง๋ ์ผ์นํ๋๊ฐ?
- **`Fig 5`**ย finetuning ํ ์๋ต์ activation์ด persona vector ๋ฐฉํฅ์ผ๋ก ์ผ๋ง๋ ์ด๋ํ๋์ง ์ธก์ = ๋ฐ์ดํฐ์
๋ง๋ค ์ ๋๊ฐ ๋ฐ๋
- **`Fig 6`**ย trait behavior ์ ์ ๋ณํ์ ์๊ด๋ถ์ ๊ฒฐ๊ณผ ๋งค์ฐ ๋์ ์๊ด๊ด๊ณ ํ์ธ (r = 0.75~0.97 ์์ค)
- **activation ์์ค์ ์ด๋๋**๋ง ๋ณด๊ณ ๋ finetuning ํ trait ๋ฐํ ๋ณํ๋ฅผ ๋งค์ฐ ์ ํํ ์์ธก ๊ฐ๋ฅํ๋ค๋ ๊ฒฐ๋ก ํ์ธ
- **`Fig 7`**ย ์ฌํ์ ์ํ๋ณด๋ค ์ฌ์ ์ ์๋ฐฉ์ด ๋ซ๋ค.
- ์ฌํ์ ์ํ: trait ๊ฐ์ ํจ๊ณผ ์์ง๋ง MMLU ๋ฑ ์ผ๋ฐ ๋ฅ๋ ฅ ์ ํ
- ์๋ฐฉ์ ์ฐํ: trait ์ต์ ํจ๊ณผ ์ ์งํ๋ฉด์ ์ผ๋ฐ ๋ฅ๋ ฅ ์์ ์ต์ํ
- **`Fig 8/9/10`**ย tuning ์ ์ ํ์ต ๋ฐ์ดํฐ๋ง์ผ๋ก trait ๋ฐํ์ ํ์ธํ ์ ์๋๊ฐ?
- **`Fig 8`**ย ์ํ ๋จ์๋ก ๋์ ์๊ด์ฑ ํ์ธ, ์ฆ ๊ฐ๋ฅํ๋ค.
- **`Fig 9`**ย ฮP ๊ฐ ๊ธฐ์ค์ผ๋ก trait-inducing ์ํ vs ์ผ๋ฐ ์ํ ๋ถํฌ ๋น๊ตํด๋ด๋ ํ์ฐํ ์ฐจ์ด
- **`Fig 10`**ย ๋๊ท๋ชจ ๊ณต๊ฐ ๋ฐ์ดํฐ์
์์๋ ์ ํจ
- ฮP ๊ธฐ๋ฐ ํํฐ๋ฅผ ์ถ๊ฐํ์ฌ LMSYS-CHAT-1M ๋ฐ์ดํฐ์
์์ high-projection ์ํ ์ ๋ณ โ trait ์ฆ๊ฐ ํ์ ํ ์ค์ด๋ฆ
Personal note. vector steering์ agent ์ฑ๊ฒฉํน์ฑ์ ํ์ฉํ ๊ตฌ์ฒด์ ์ธ ์ฌ๋ก๋ก ๋ณด์ฌ์ ํ์ธํ์ต๋๋ค. ๋ค๋ง ๋ํ ์์คํ ์์ฒด์ ํ์ฉํ๋ค๊ธฐ ๋ณด๋ค๋ ๊ฐ๊ฑดํ LLM ๊ฐ๋ฐ ์ธก๋ฉด์์ ๋ ์ ์ํ ์ ๊ทผ๊ฐ์ ๋ณด์ด๊ธฐ๋ ํฉ๋๋ค. ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ ๋น์ทํ ์ ๊ทผ์ ์ทจํ๊ณ ์ ํ๋ค๋ฉด, anthropic์ ๋ ผ๋ฌธ์์ ์ทจํ๊ณ ์๋ ํ๋(์๋ฐํ ํ์ ํ์ธ๊ณผ ์ฆ๋ช ๊ณผ์ )๋ฅผ ๋ฐ๋ผ๊ฐ๋ณด๋ ๊ฒ์ ํ์คํ ์ ์ตํ๋ค๋ ์๊ฐ์ด ๋ค์์ต๋๋ค.