less than 1 minute read

Meta info.

TL; DR

비슷한 사이즈 Transformer 대비 5배 빠른 추론속도

Untitled

Untitled

Effects

  • 비슷한 사이즈 Transformer 대비 5배 빠른 추론속도
  • linear scaling in sequence length
  • NLU 성능은 x2 Transformer에 일치