LLaMA Pro: Progressive LLaMA with Block Expansion
Meta info.
- Authors: Chengyue Wu, Yukang Gan, Yixiao Ge, Zeyu Lu, Jiahao Wang, Ye Feng, Ping Luo, Ying Shan
- Paper: https://arxiv.org/pdf/2401.02415.pdf
- Affiliation: Tencent AI
TL; DR
์๋ก ์ถ๊ฐํ ๋ธ๋ก์ ๋งค๊ฐ๋ณ์๋ง ๋๋ฉ์ธ ๋ฐ์ดํฐ๋ก ์
๋ฐ์ดํธํ๋ post-pretraining ๋ฐฉ์์ block expansion์ด domain-specific task์ ํนํ ์ ์ฉํ๋ค๊ณ ์ ์. ์ ์ฒด๋ฅผ finetuningํ ๋ ๋ฐ์๋๋ ๋ง๊ฐ์ด ์ผ์ด๋์ง ์๋๋ค๊ณ . ๋์ผ ๋ฐ์ดํฐ ์ฌ์ฉ์ ์ ์ ํ์ ๋ LLaMA2 ๋ณด๋ค ์ผ๊ด๋๊ฒ outperform, ํนํ expansion ๊ณผ์ ์์ ๋ ๋ง์ ์ง์์ ์ต๋ํ๋ค๊ณ . ๋ค๋ง ์ง์ ๋ ๋ฐ์ ๊ฐ์ด ๋ธ๋ก ์๋ฅผ task ๋ณ๋ก ์กฐ์ ํด์ผํ๋ ๊ฒ์ ํ๊ณ.



LLaMA Pro: Progressive LLaMA with Block Expansion
Suggestions
- P=1, M=4, N=3์ผ๋ก ์คํ(pic2 ๋ณ์ ์ฐธ๊ณ ), LLaMA2-7B ๋ชจ๋ธ์ 32๋ธ๋ก์์ 40๊ฐ๋ก ํ์ฅ, ์ฆ ๊ฐ ๊ทธ๋ฃน(?)์ด 4๋ธ๋ก์์ 5๋ธ๋ก์ผ๋ก ํ์ฅ.
- identity block: ์๋ ๋ชจ๋ธ์ block copy & insertํ๋ ๊ณผ์ ์์ ํ์ฅ๋ block. ๋ธ๋ก ๋ด multi-head self-attention & FFN๊ฐ input์ RMSNorm์ ์ทจํ ๋ 0์ ์ถ๋ ฅํ๋๋ก initialize(by-pass)
- code task ์ฒ๋ผ ์ ๋ฌธ ์ฉ์ด ํน์ ํน์ domain์ ์ ์ฉ์ ์ ๋ฆฌ (pic1)
Personal note. ์ ์คํ ์ด์ง ๋ชจ๋ธ๊ณผ ํฐ ๋งฅ๋ฝ์ ๋น์ทํ ๊ฒ ๊ฐ์๋ฐ (๋ชจ๋ธ์ ์ด๋ป๊ฒ ํจ๊ณผ์ ์ผ๋ก ์ ๋๋ฆด์ง?)