Mamba: Linear-Time Sequence Modeling with Selective State Spaces
Meta info.
- Authors: Albert Gu, Tri Dao
- Paper: https://arxiv.org/pdf/2312.00752.pdf
- Affiliation: CMU, Prinston Univ.
- Code: https://github.com/state-spaces/mamba
- References: @_albertgu, @tri_dao
TL; DR
비슷한 사이즈 Transformer 대비 5배 빠른 추론속도


Effects
- 비슷한 사이즈 Transformer 대비 5배 빠른 추론속도
- linear scaling in sequence length
- NLU 성능은 x2 Transformer에 일치