Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet
Meta info.
- Authors: Adly Templeton, Tom Conerly et al.
- Paper: https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html
- Affiliation: Anthropic
- Published: May 21, 2024
TL; DR
Claude3-sonet의 중간 layer에서 나온 Residual stream로 Sparse Auto-encoder (SAE) 학습, SAE와 그 feature vector 활용하여 해석 가능한 수준의 특성 확인가능.



Suggestions
- pre-requiesties
- SAE: 보통 AE가 hidden layer 노드 수를 input layer 보다 적게 하는 것 대비, 더 키우거나 같게 하고 regulation term으로 활성 뉴런 개수를 제한하도록 하는 방법으로 더 유용한 feature에 집중하도록 학습을 의도하는 방법. (drop out 같은 느낌)
- SAE의 feature는 보통의 AE처럼 compression 수행하되 sparse하게 구성 → feature간 중첩되는 활성 노드가 별로 없으므로 벡터간 서로 orthogonal
- Residual stream: Transformers 내부 Residual Connection 값. transformers 내부 동작 프로빙에 사용.
- SAE: 보통 AE가 hidden layer 노드 수를 input layer 보다 적게 하는 것 대비, 더 키우거나 같게 하고 regulation term으로 활성 뉴런 개수를 제한하도록 하는 방법으로 더 유용한 feature에 집중하도록 학습을 의도하는 방법. (drop out 같은 느낌)
- LLM 내부(=sonet 중간에서) residual stream을 SAE 입력으로 학습하여, SAE로 표현된 feature vector 중 유사한 것끼리 clustering
- 논문에서는 묶인 클러스터를 feature라고 표현하고, 이 단위로 실험 리포트 (가정: feature가 유사하면 입력도 유사하다)
Effects
- feature단위로는 interpretable할 정도.
pic 1 좌측에서 sycophantic praise 와 관련된 것으로 보이는 feature에 대해 크게 activate. pic 1 우측에서 앞선 feature를 높게 하면 일반 prompt도 비슷한 스타일 유지- 언어간 동일한 패턴 유지 (같은 feature에 반응).
pic 2에서 동일 feature에 대해 금문교나 golden gate bridge나 (심지어는 금문교 사진이나) 비슷하게 activate됨. 즉 언어나 이미지랑 무관하게 feature는 동일한 semantic을 담는 듯. - 딱히 feature가 엄청 뚜렷하게 activate된 예시가 별로 없다고. 간혹 눈에 띄는 경우에 대해서는 엄청 구체적인 semantic이 있다고 보였다고.
pic 3
Personal note. 언어별로 다르게 knowledge가 인코딩 되느냐 아니냐를 좀 더 알아보는게 이번 제안서 세부 주제 중 하나가 될 수 있을지도