Differential Transformer
Meta info.
- Authors: Tianzhu Ye, Li Dong, Yuqing Xia, Yutao Sun, Yi Zhu, Gao Huang, Furu Wei
- Paper: https://arxiv.org/pdf/2410.05258
- Affiliation: Microsoft Research, Tsinghua Univ.
- Published: October 7, 2024
- Code: https://aka.ms/Diff-Transformer
TL; DR
Q/K를 각각 두 그룹으로 나누어 2개의 softmax attention map간 차이를 계산, relevant context에 대한 attention을 키우고 노이즈는 제거하는 방식의 transformers 변형 제안, hallucination 개선









Problem States
LM의 irrelevant context에 대한 과할당 문제에 따른 hallucination을 어떻게 해결할 수 있을까?
- Attention Noise: Transformer의 vanilla attention 연산에서는 irrelevant context에 대해 무차별하게 attend시킴
Suggestions
Diff Transformers
- 전기공학에서 noise-canceling headphones & differential amplifiers에서 영감받음: 두 signal의 차이가 common-mode noise를 상쇄시킴.
- Flash Attention 기반
Effects
Figure 3: 비슷한 language modeling performance 달성에 모델 크기 또는 training token의 약 65%만 필요Figure 4: diff transformers input length를 64K로 늘리면 증가하는 컨텍스트를 효과적으로 활용하여 vanilla보다 낮은 cumulative average negative loglikelihood 달성Table 2Figure 5: irrelevant context에서 key information 찾는데 능숙. 64K에서도 diff transformers의 안정적 성능 확인 가능 (Multi-Needle)Figure 6Figure 7: ICL에서 다양한 downstream task에 대해 더 적은 demonstration으로도 지속적으로 더 높은 성능 확인 가능. (TREC 등 분류 task)Table 4: 요약, QA 등에서도 성능 향상 확인Table 5Figure 8: Activation의 이상치도 적다고. attention logits과 hidden states의 최고 activation value가 훨씬 작고, HellaSwag 으로 확인한 결과 quantization 해도 성능 저하 작았음
Personal note.
좀 비판없이 읽은 것 같긴 한데단순한 아이디어로 효율성 개선이 큰 것 같아요. appendix에서 정량적으로 computing cost도 계산하긴 하는데, 주장에 따르면 vanilla와 동등 성능 달성에 65%-scale만 있으면 된다고 하는것도 큰 매력으로 보입니다 👀