Differential Transformer

October 10, 2024 1 minute read

Meta info.

Authors: Tianzhu Ye, Li Dong, Yuqing Xia, Yutao Sun, Yi Zhu, Gao Huang, Furu Wei
Paper: https://arxiv.org/pdf/2410.05258
Affiliation: Microsoft Research, Tsinghua Univ.
Published: October 7, 2024
Code: https://aka.ms/Diff-Transformer

TL; DR

Q/K를 각각 두 그룹으로 나누어 2개의 softmax attention map간 차이를 계산, relevant context에 대한 attention을 키우고 노이즈는 제거하는 방식의 transformers 변형 제안, hallucination 개선

Problem States

LM의 irrelevant context에 대한 과할당 문제에 따른 hallucination을 어떻게 해결할 수 있을까?

Attention Noise: Transformer의 vanilla attention 연산에서는 irrelevant context에 대해 무차별하게 attend시킴

Suggestions

Diff Transformers

전기공학에서 noise-canceling headphones & differential amplifiers에서 영감받음: 두 signal의 차이가 common-mode noise를 상쇄시킴.
Flash Attention 기반

Effects

Figure 3 : 비슷한 language modeling performance 달성에 모델 크기 또는 training token의 약 65%만 필요
Figure 4 : diff transformers input length를 64K로 늘리면 증가하는 컨텍스트를 효과적으로 활용하여 vanilla보다 낮은 cumulative average negative loglikelihood 달성
Table 2 Figure 5 : irrelevant context에서 key information 찾는데 능숙. 64K에서도 diff transformers의 안정적 성능 확인 가능 (Multi-Needle)
Figure 6 Figure 7: ICL에서 다양한 downstream task에 대해 더 적은 demonstration으로도 지속적으로 더 높은 성능 확인 가능. (TREC 등 분류 task)
Table 4 : 요약, QA 등에서도 성능 향상 확인
Table 5 Figure 8: Activation의 이상치도 적다고. attention logits과 hidden states의 최고 activation value가 훨씬 작고, HellaSwag 으로 확인한 결과 quantization 해도 성능 저하 작았음

Personal note. ~~좀 비판없이 읽은 것 같긴 한데~~ 단순한 아이디어로 효율성 개선이 큰 것 같아요. appendix에서 정량적으로 computing cost도 계산하긴 하는데, 주장에 따르면 vanilla와 동등 성능 달성에 65%-scale만 있으면 된다고 하는것도 큰 매력으로 보입니다 👀