Persona Vectors: Monitoring and Controlling Character Traits in Language Models

August 4, 2025 3 minute read

Meta info.

Authors: Runjin Chen, Andy Arditi, Henry Sleight, Owain Evans, Jack Lindsey
Paper: https://arxiv.org/pdf/2507.21509
Affiliation: Anthropic, Constellation, Truthful AI, UC Berkeley, UT Austin
Published: July 29, 2025
Code: https://github.com/safety-research/persona_vectors

TL; DR

LLM fine-tuning 전후 혹은 그 과정에서 personality trait shifts(아첨, 환각, 악의) 탐지/예측/완화하기 위해 persona vector를 자동으로 추출하고 적용하는 방법 제안

Background

ChatGPT, Claude 등 최신 LLM들은 유익하고 assistant 역할을 하도록 학습했으나,
배포 시점의 프롬프트 입력이나 fine-tuning은 과도한 아첨, 환각, 악의적 행동 등 원치 않는 역할 변화로 연결
기존 연구에서는 이러한 특성이 activation space에서의 linear direction과 대응될 수 있다고 주장
제안 방식의 참고가 된 연구: ReFT-r1(Wu et al., 2025)은 contrastive prompting으로 concept direction을 추출하는 방식 제안

Problem States

대화 중 또는 훈련 중에 모델의 성격이 어떻게 변화하는지 여부와 그 방식 모니터링
바람직하지 않은 성격 변화를 완화하거나 훈련 중에 발생하는 것을 방지
이러한 변화를 유발할 수 있는 훈련 데이터 식별

Suggestions

- **Automated Persona Vector Extraction - steering vector으로 접근 `Fig 2`**
    - Claude 3.7로 자연어 설명(e.g., 악의 = 해를 입히는 것)만으로부터 대비되는 프롬프트(contratstive prompt) 생성
    - `persona vector` : pos-/neg- 샘플간 모델 activation 차이로 linear direction 계산
- persona vector 활용 **`Fig 1`**
    - **Monitoring** persona shifts
        1. **모델 배포 중 (prompting)**: prompt or response 수준에서 **`Fig 4`**
            1. 프롬프트(혹은 응답)의 마지막 hidden state 추출
            2. Persona vector와의 projection 계산
            3. projection 값과 해당 trait 발현간 상관성 확인 (양의 상관관계 확인)
        2. **모델 배포 전 (finetuning)** : training set 전체 수준에서 **`Fig 5/6`**
            1. 학습데이터셋 전체를 base model에 통과
            2. 각 샘플 응답의 activation을 Persona vector에 projection
            3. 데이터셋 전체 평균 projection 계산 = Finetuning Shift 예측치
            4. 예측치가 높으면 training 후 undesirable trait 강화될 가능성 높다고 판단
    - **Steering interventions `Fig 3/7`**
        - 사후적 완화: persona vector를 inference 중에 모델의 activation에서 해당 trait 방향을 빼거나 더함
        - 예방적 우회: undesirable trait 방향으로 optimize되지 않도록 persona vector를 Training에서 각 레이어 hidden state에 더하거나 빼기 (부호는 Trait을 완화하는 방향으로)
    - **flagging problematic training data**: training set 샘플단위 적용 **`Fig 8/9/10`**
        1. 아직 finetuning 안 된 base model로 training set의 각 샘플(입력-출력 pair) 통과
        2. 해당 응답의 activation을 persona vector에 projection
        3. Projection difference 계산:ΔP = (b: 훈련 데이터 샘플의 응답 projection) − (a: base model이 “자연스럽게” 만든 응답의 projection)
        4. ΔP가 큰 샘플 == trait을 강하게 유도하는 데이터 == flagging
        5. 샘플들을 제외하거나 수정해 Data filtering 적용 - Results:
- **`Fig 3`** 모델이 특정 trait을 더 강하게 표현하거나 줄이는 것을 직접 조작할 수 있는가?
    - + {persona_vector}: trait이 더 강화되는 응답 생성.
    - {persona_vector}: 해당 trait이 줄어들고, 응답이 중립/사실적 방향으로 이동.
- **`Fig 4`** 배포 환경에서 프롬프트 자체가 특정 trait을 유도하는가? (실시간 monitoring이 가능한가?)
    - 악의, 아첨형, hallucination 모두 높은 양의 상관관계 (r = 0.75–0.83 수준)
- **`Fig 5/6`** 특정 데이터셋으로 finetuning시 trait 발현이 변화되는가? 그렇다면 finetuning shift가 실제 trait 발현 변화와 정량적으로 얼마나 일치하는가?
    - **`Fig 5`** finetuning 후 응답의 activation이 persona vector 방향으로 얼마나 이동했는지 측정 = 데이터셋마다 정도가 바뀜
    - **`Fig 6`** trait behavior 점수 변화와 상관분석 결과 매우 높은 상관관계 확인 (r = 0.75~0.97 수준)
        - **activation 수준의 이동량**만 보고도 finetuning 후 trait 발현 변화를 매우 정확히 예측 가능하다는 결론 확인
- **`Fig 7`** 사후적 완화보다 사전적 예방이 낫다.
    - 사후적 완화: trait 감소 효과 있지만 MMLU 등 일반 능력 저하
    - 예방적 우회: trait 억제 효과 유지하면서 일반 능력 손상 최소화
- **`Fig 8/9/10`** tuning 전에 학습 데이터만으로 trait 발현을 확인할 수 있는가?
    - **`Fig 8`** 샘플 단위로 높은 상관성 확인, 즉 가능하다.
    - **`Fig 9`** ΔP 값 기준으로 trait-inducing 샘플 vs 일반 샘플 분포 비교해봐도 확연한 차이
    - **`Fig 10`** 대규모 공개 데이터셋에서도 유효
        - ΔP 기반 필터를 추가하여 LMSYS-CHAT-1M 데이터셋에서 high-projection 샘플 선별 → trait 증가 현저히 줄어듦

Personal note. vector steering을 agent 성격특성에 활용한 구체적인 사례로 보여서 확인했습니다. 다만 대화 시스템 자체에 활용한다기 보다는 강건한 LLM 개발 측면에서 더 유의한 접근같아 보이기는 합니다. 그럼에도 불구하고 비슷한 접근을 취하고자 한다면, anthropic의 논문에서 취하고 있는 태도(엄밀한 현상 확인과 증명 과정)를 따라가보는 것은 확실히 유익하다는 생각이 들었습니다.