Specialized Language Models with Cheap Inference from Limited Domain Data

February 19, 2024 less than 1 minute read

Meta info.

Paper: https://arxiv.org/pdf/2402.01093.pdf
Affiliation: Apple Inc.
Published: February 2, 2024

TL; DR

1) generic pretraining cost 2) domain-specific pretraining cost 3) inference cost 4) size of specific domain training set 네가지 제약조건 하에서 가장 효율적인 학습에 대한 emperical study.

Untitled

Untitled 3

Untitled 4

Untitled

Effects

domain-specific pretraining cost에 대해
1. budget이 많다면 smaller model에 generic corpus (c4) importance sampling 👍
2. budget이 적다면 hyper-networks & MoE 👍 (pic1)
Distillation: 실상은 별로 경쟁력 없음 (pic3)
Fine-tuning cost: finetuning-set size x8 증가할 때마다 finetuning cost는 x10 증가
LoRA for finetuning: domain-specific set이 별로 없을 때 모델 관리 측면이나 저장 혹은 통신비용 감소에는 도움을 줘도, pretraining cost를 줄이는 건 아니라 오히려 더 많은 step을 거쳐야 하므로 finetuning cost는 증가한다고 봄.
subset performance: token size에 대해 finetuning 후 도메인 subset별 ppl 기준으로, 결과가 일관성이 없는데, 일부 도메인에 대해서는 vanilla LM대비 hyper-network나 MoE가 별로인 점으로 미루어 model-finetuning 전략 세울 때 도메인별로 고려해야된다는 의견. (pic2)