LLaMA : Open and Efficient Foundation Language Models
Meta info.
- Authors: Hugo Touvron,Thibaut Lavril, Gautier Izacard
- Paper: https://research.facebook.com/file/1574548786327032/LLaMA--Open-and-Efficient-Foundation-Language-Models.pdf
- Affiliation: Meta AI
- Code: https://github.com/facebookresearch/llama
TL; DR
10๋ฐฐ ๋ ์ ์ ํ๋ผ๋ฏธํฐ(13B)๋ก GPT-3 175B ๋๋น ๊ฑฐ์ ๋ชจ๋ ๋ฒค์น๋งํฌ์์ ๋ ๋์ ์ฑ๋ฅ ๋ฌ์ฑ.




Suggestions
- 1T tokens ํ์ต(pic 3์์ 1T ํ ํฐ ์ด์์ผ๋ก๋ 7B ๋ชจ๋ธ ์ฑ๋ฅ ๊ฐ์ )
- Pre-normalization(GPT-3), SwiGLU ํ์ฑํจ์(PaLM), Rotary Embeddings(GPT-Neo) ๋ฐฉ์์ ๋ฐํ
- ์น์น ๋ผ๋ PaLM, GPT-3์ ๋ถํฌ๋ช ์ฑ ๋๋น LLaMA๋ Open-source ๋ฐ์ดํฐ(CC, C4, Wikipedia ๋ฑ) ๋ง ์ฌ์ฉํ์ฌ ๋ชจ๋ธ ๊ณต๊ฐ
- ๋ค๋ง ์์ ์ฉ ๋ฐ ์์ฐ ๋ชฉ์ (?)์ผ๋ก๋ ๋ชจ๋ธ๊ณผ ๋ฐ์ดํฐ ์ฌ์ฉ ๋ถ๊ฐ
- instruction finetuning๋ ์๋ํ๋ค๊ณ .(pic 4)