2 minute read

Meta info.

TL; DR

LM intervention의 영향 정량화 시도

image.png

image.png

image.png

Problem States

의도하에 common intervention으로 어떤 behavior를 수정해도, 수정 후 해당 behavior가 어떻게 될지를 정확히 알 수는 없다. 즉, 개입의 영향을 (정량적으로) 확인 불가.

  • intervention: LM 내부 파라미터 조작하거나 states를 바꾸는 행위. 모델의 특정 동작을 수정하면서도 관련 없는 부분에는 영향을 최소화해야함. (보통은 unintended side-effect 발생)
    • e.g. representation surgery, knowledge editing, Inference-time intervention, instruction tuning, ….

Suggestions

LLM을 Generalized Structural equation Models(GSEM) w/Gumbel-max trick로 reformulate → conuterfactual 문장 생성

  • 언어모델을 GSEM으로 보고,: 이전 sequence의 토큰 각각을 변수로 보고 현재 sequence를 예측하는 경우,
    • SEM에서 변수간 관계를 명시화(= 구조식 활용)하는 대신,
    • intervention 과 이전 sequence가 주어졌을 때, 가능한 결과 집합을 직접 mapping하는 함수로 상정
  • Gumbel-max trick: sampling process에서 deterministic logit computation 분리
    • 외부 변수(무작위성을 설명하는 잠재 변수): Gumbel(0, 1) 분포를 따르는 무작위 변수 시퀀스
    • 내부 변수(외부 변수가 고정되면 결정론적인 변수): 생성된 토큰, 모델 params, 개입을 위한 보조 매개변수 등
      • 본 연구에서는 LM의 output token logit 계산
    • hindsight Gumbel sampling 도입: 모델 logit에 Gumbel 분포에서 추출한 노이즈 (외부변수) 추가 = 생성 과정의 확률적 부분을 명시적으로 모델링
  • conterfactual 문장 생성 절차
    1. 원본 LM의 생성 문장 생성하는 분포(original string)
    2. 이 때 샘플링 노이즈 (Gumbel(0, 1) 분포)적용
    3. 1에서 사용한 주어진 문장에 대한 Conterfactual LM(intervention 수행된 모델) 으로 Conterfactual 문장을 생성하는 분포(counterfactual string)
    4. 2에서 사용한 노이즈 동일하게 적용
    5. 1+2와 3+2(=4) 사이 joint distribution을 modeling: intervention의 영향을 분리해서 분석 가능

Effects:

  • experiments set-up
    • backbone: GPT2-XL, LLaMA3-8B
    • intervention:
      • knowledge editing: MEMIT으로 MEMIT-LouvreMEMIT-Koalas 모델 생성 생성. (루브르 박물관의 위치를 파리에서 로마로, 코알라의 서식지를 호주에서 뉴질랜드로,…)
      • Inference-time intervention: Honest LlaMa으로 Steering-HonestMiMiC으로 Steering-Gender 모델 생성 (남성표현 → 여성표현)
      • instruction tuning: LLaMA3-Instruct활용
  • results: 결과적으로 부작용 없이 원하는 속성만 변경할 수는 없었다
    • Side Effects of Common Intervention: 임의로 선택된 영어 Wikipedia 문장의 첫 5단어를 prompt로 각 모델에서 최대 25개의 토큰으로 이어지는 문장 생성
      • language modeling의 auto-regressive 특성상 token 생성시 약간의 변화가 빠르게 누적, original과 counterfactual 사이 상당한 의미적 차이 발생한다.
        • 공통 prefix의 정규화 길이: MEMIT-이 최대 50% 수준, Steering-이 약 30%, instruction tuning의 경우 24%정도
        • cosine similarity: MEMIT-이 약 0.98 내외, 나머지는 약 0.8 수준
    • Gender Steering: original LM으로 Bios(성별이 표기된 profile데이터) 의 첫 단어를 프롬프트로, 각 모델에 500개의 연속 문장 생성
      • 대명사를 변경하는 데 있어 상당한 효과: original은 남성명사 있지만 conterfactual 에서는 약 절반이 여성 명사로 바뀜 (남성 지배적 직업에 대해서도 마찬가지 효과)
      • 우려: intervention 자체가 실생활에서의 성별 bias를 반영하는 pair을 이루지 않은 데이터로 학습되었거나, Pretrainig에 내재된 사전 확률 때문으로 추측
    • Location Editing: original LM에 “파리는 많은 관광 명소를 제공하지만~”과 같은 프롬프트 사용, 루브르 박물관의 위치로 파리를 언급하는 문장을 생성하도록 요청 (파리와 루브르 박물관을 모두 언급하지 않는 문장은 필터링) > conterfactual LM에 counterfactual 문장 생성
      • 루브르 박물관에 초점을 맞춘 conterfactual 문장은 루브르 박물관에 초점을 맞추지 않은 생성보다 original 문장의 의미에서 훨씬 더 많이 벗어남
      • conterfactual 문장을 눈으로 봐도 original 문장의 의미에서 상당한 차이 확인 가능
      • 정확성 측면에서 conterfactual 문장의 60%는 루브르 박물관의 위치로 로마로, 40%는 여전히 파리를 언급

Personal note. 탄탄해보이는 증명은 차치하고 접근 방식이 타당한지 그렇지 않은지는 사실 논문만 봐서는 확신이 서지는 않는데, 정량화를 시도하고 그에 따라 현재 intervention 방법들이 갈 길이 멀다는 사실을 보여준 결과 자체는 의의를 가질 수 있다고 생각합니다.