less than 1 minute read

Meta info.
  • Authors: Hitesh Wadhwa, Rahul Seetharaman, Somyaa Aggarwal et al.
  • Paper: https://arxiv.org/pdf/2406.12824
  • Affiliation: Massachusetts Univ., Microsoft Research
  • Published: June 18, 2024

TL; DR

LLM이 내부지식 패싱하고 외부지식(RAG context)만 사용하는 데에 강한 편향이 있다는 사실을 기계적으로(?) 추적

Untitled

Untitled

Untitled

Suggestions

  1. pic1 causal tracing: 검색된 context가 있다면, MLP의 사용량, 즉 파라메트릭 메모리를 최소한으로 활용한다. (검색된 컨텍스트가 있는 경우, 평균적으로 Last Subject Token을 나타내는 MLP의 ‘Average Indirect Effect’ 가 줄어듦)
  2. pic2 norm of attention contribution: 검색된 context가 있다면, last token residual stream이 query의 subject token으로부터 정보를 덜 얻어오고, context의 다른 token에서 얻는다.
  3. pic3 attention knockouts: 검색된 context가 있다면, query의 subjcet에서 last token까지 attention weight를 knocking out하는것은 효과가 미미하다. (b와 같은 결과)