Specialized Language Models with Cheap Inference from Limited Domain Data
Meta info.
- Paper: https://arxiv.org/pdf/2402.01093.pdf
- Affiliation: Apple Inc.
- Published: February 2, 2024
TL; DR
1) generic pretraining cost 2) domain-specific pretraining cost 3) inference cost 4) size of specific domain training set ๋ค๊ฐ์ง ์ ์ฝ์กฐ๊ฑด ํ์์ ๊ฐ์ฅ ํจ์จ์ ์ธ ํ์ต์ ๋ํ emperical study.





Effects
- domain-specific pretraining cost์ ๋ํด
- budget์ด ๋ง๋ค๋ฉด smaller model์ generic corpus (c4) importance samplingย ๐
- budget์ด ์ ๋ค๋ฉด hyper-networks & MoEย ๐ย (pic1)
- Distillation: ์ค์์ ๋ณ๋ก ๊ฒฝ์๋ ฅ ์์ (pic3)
- Fine-tuning cost: finetuning-set size x8 ์ฆ๊ฐํ ๋๋ง๋ค finetuning cost๋ x10 ์ฆ๊ฐ
- LoRA for finetuning: domain-specific set์ด ๋ณ๋ก ์์ ๋ ๋ชจ๋ธ ๊ด๋ฆฌ ์ธก๋ฉด์ด๋ ์ ์ฅ ํน์ ํต์ ๋น์ฉ ๊ฐ์์๋ ๋์์ ์ค๋, pretraining cost๋ฅผ ์ค์ด๋ ๊ฑด ์๋๋ผ ์คํ๋ ค ๋ ๋ง์ step์ ๊ฑฐ์ณ์ผ ํ๋ฏ๋ก finetuning cost๋ ์ฆ๊ฐํ๋ค๊ณ ๋ด.
- subset performance: token size์ ๋ํด finetuning ํ ๋๋ฉ์ธ subset๋ณ ppl ๊ธฐ์ค์ผ๋ก, ๊ฒฐ๊ณผ๊ฐ ์ผ๊ด์ฑ์ด ์๋๋ฐ, ์ผ๋ถ ๋๋ฉ์ธ์ ๋ํด์๋ vanilla LM๋๋น hyper-network๋ MoE๊ฐ ๋ณ๋ก์ธ ์ ์ผ๋ก ๋ฏธ๋ฃจ์ด model-finetuning ์ ๋ต ์ธ์ธ ๋ ๋๋ฉ์ธ๋ณ๋ก ๊ณ ๋ คํด์ผ๋๋ค๋ ์๊ฒฌ. (pic2)