Configurable Foundation Models: Building LLMs from a Modular Perspective
Meta info.
- Authors: Chaojun Xiao, Zhengyan Zhang, Chenyang Song, Dazhi Jiang, Feng Yao, Xu Han, Xiaozhi Wang, Shuo Wang, Yufei Huang, Guanyu Lin, Yingfa Chen, Weilin Zhao, Yuge Tu, Zexuan Zhong, Ao Zhang, Chenglei Si, Khai Hao Moo, Chenyang Zhao, Huimin Chen, Yankai Lin, Zhiyuan Liu, Jingbo Shang, Maosong Sun
- Paper: https://arxiv.org/pdf/2409.02877
- Affiliation: CMU, ModelBest Inc., NUS, Prinston Univ., Renmin Univ., Stanford Univ., Tsinghua Univ., UCLA, University of California San Diego
- Published: September 4, 2024
TL; DR
LLM์ ์ธ๊ฐ์ ๋์ ๊ฐ์ด ๊ธฐ๋ฅ์ ๋ชจ๋๋ก ์ ๊ทผํ์๋ ๊ด์ ์ ์ (brick ๋จ์๋ก ๋ถํด)๊ณผ ๊ฒฝํ์ ์คํ ๊ฒฐ๊ณผ ๋ณด๊ณ







Configurable Foundation Models: Building LLMs from a Modular Perspective
- TL; DR: LLM์ ์ธ๊ฐ์ ๋์ ๊ฐ์ด ๊ธฐ๋ฅ์ ๋ชจ๋๋ก ์ ๊ทผํ์๋ ๊ด์ ์ ์ (brick ๋จ์๋ก ๋ถํด)๊ณผ ๊ฒฝํ์ ์คํ ๊ฒฐ๊ณผ ๋ณด๊ณ
Problem States
LLM์ด ๋๋ฌด ์ปค์ง์ ๋ฐ๋ผ cost ๋ฌธ์ ๊ฐ ์ปค์ง. ์๋์ ์ผ๋ก adaptation๋ ์ด๋ ต๊ณ ํฌ๋ช ์ฑ๋ ๋จ์ด์ง. โ LLM์ ์ธ๊ฐ์ ๋์ฒ๋ผ ๋ถ๋ฆฌํ ์๋ ์์๊น?
Suggestion
Brick ๋จ์๋ก ๋ชจ๋ธ์ ๋ถํดํ์ฌ ์ ๊ทผํ๋ ๊ด์ ์๊ฐ
- Emergent Bricks: pretraining ๊ณผ์ ์์ ์์ฐ์ค๋ฝ๊ฒ ์์ฑ.
- Activation Sparsity: ๋ง์น ์ธ๊ฐ๋ ์ด๋ค ๊ธฐ๋ฅ์ ํ๊ธฐ ์ํด ๋์ ํน์ ๋ถ๋ถ๋ง ์ฌ์ฉํ๋ ๊ฒ์ฒ๋ผ, LLM๋ ์
๋ ฅ์ ๋ฐ๋ผ ํน์ ๋ด๋ฐ๋ง ํ์ฑํํจ.ย
์คํ1 - Function Localization: LLM ๋ด๋ฐ๋ค์ ํน์ ๊ธฐ๋ฅ ์ํ์ ํนํ๋จ. (๋ฒ์ญ, ์ฝ๋ฉ, ๊ฐ์ ๋ถ์,,)ย
์คํ2 - Human-Defined Emergent Bricks์ ํ ์๋ ์๋๋ฐ, ๊ฐ๋ น Transformer์ Multi-head att. layer๋ FFN ์ ๊ฐ head๋ ๋ด๋ฐ ๋ฑ์ ํ๋์ brick์ผ๋ก ๊ฐ์ฃผ
- Self-Organized Emergent Bricks์ ํ์ตํ๋ฉด์ activation pattern๊ธฐ๋ฐ์ผ๋ก ์๋ฐ์ ์ผ๋ก clustering๋๋ ๊ฒฝ์ฐ. cluster๋ณ๋ก ํน์ ๊ธฐ๋ฅ ์ํย
์คํ3
- Activation Sparsity: ๋ง์น ์ธ๊ฐ๋ ์ด๋ค ๊ธฐ๋ฅ์ ํ๊ธฐ ์ํด ๋์ ํน์ ๋ถ๋ถ๋ง ์ฌ์ฉํ๋ ๊ฒ์ฒ๋ผ, LLM๋ ์
๋ ฅ์ ๋ฐ๋ผ ํน์ ๋ด๋ฐ๋ง ํ์ฑํํจ.ย
- Customized Bricks: ์ง์์ ๋ชจ๋ธ์ ์ฃผ์
ํ๊ธฐ ์ํด ์ฌํ Training์์ ์๋์ ์ผ๋ก ์ค๊ณํ๊ฑฐ๋ ์ถ๊ฐํ๋ brick
- Task Bricks: Adapter, Prompt, Prefix Tuning, LoRA, โฆ
- Knowledge Bricks: KG, external context?
- Modality Bricks: multi-modality ๋ฅผ ์ฒ๋ฆฌํ ์ ์๋๋ก ๋ณ๋ ์ค๊ณ๋ ๋ชจ๋
- Brick ํ์ฉ ๋ฐฉ์
- retrieval & routing: ์ฃผ์ด์ง ์ ๋ ฅ์ ์ ํฉํ brick ์ ํ
- Combination: brick๊ฐ ๊ฒฐํฉ ์๋ (e.g. ๋์ผ ๊ตฌ์กฐ brick๊ฐ ์ ํ๊ฒฐํฉ, Stitching ๋ฑ ์ด๋ค ์์๋ฅผ ๊ฐ๊ณ ๋ณต์กํ Reasoning ์ํ (Heuristicํ ์๋, ๋ณ๋ planner model์ ์ฌ์ฉํ ์๋)
- Updating: ๊ธฐ์กด ์ ์ํ๋ brick์ค ์ฑ๋ฅ์ด ๋จ์ด์ง๋ ๋ถ๋ถ๋ง ์ ๋ฐ์ดํธํ๊ฑฐ๋, ์๋ก์ด brick์ ๋ณ๋๋ก ์ถ๊ฐํ๊ฑฐ๋
- Growing: ํ์ฅ ๊ฐ๋ ์ผ๋ก pretraining๋ถํฐ ๋ชจ๋ธ ์ฌ์ด์ฆ ํค์ฐ๊ณ ๋ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ํ์ตํ๊ฑฐ๋ ์ฌํ ํ์ต์ผ๋ก ์ ๊ทผ
- Granularity:ย ๋ด๋ฐ๋จ์, clusterํ ๋ ๋ด๋ฐ๋ค, layer, ๋ชจ๋ธ ์ ์ฒด ๋ฑ ๋จ์ ์ ์ํ๊ธฐ ๋๋ฆ
Effects
- Experimental setup: ์ ์ํ๋ ๊ด์ ์ ๋ํ ์คํ, Llama-3-8B-Instruct, Mistral-7B-Instruct-v0.3์ผ๋ก ๊ฒฝํ์ ํ์ธ
- Result:
์คํ1ย : ๋ฎ์ activation ๊ฐ์ ๊ฐ์ง ๋ด๋ฐ๋ค์ masking โ ๋ชจ๋ธ ์ฑ๋ฅ ๋ณํ ์ธก์ ยFigure 6, 7- ์ค์ ๋์ Activation Sparsity๋ฅผ ๋ณด์. ์ฆ, ์ ๋ ฅ์ ๋ํด ํ์ฑํ๋๋ ๋ด๋ฐ ์๋ ์ ๋ค.
- ๋ฎ์ activation ๊ฐ์ ๊ฐ์ง ๋ด๋ฐ๋ค์ maskingํด๋ ๋ชจ๋ธ ์ฑ๋ฅ์ ์ํฅ ๋ณ๋ก ์๋ค.
์คํ2ย : Infinity-Instruct ๋ฐ์ดํฐ์ ์ผ๋ก LLM ๋ด๋ฐ activation๊ณผ downstream task ๊ธฐ๋ฅ ์๊ด์ฑ ๋ถ์ยFigure 8- ํน์ ๊ธฐ๋ฅ์ Functionality Score๊ฐ ๋์ ๋ด๋ฐ์ด ๋ฐ๋ก ์๋ค.
- layer ๋จ์๋ก ๋ณด๋ฉด, ํ์ layer๊ฐ ๋๋ถ๋ถ์ ๊ธฐ๋ฅ์์ activate๋๊ณ , ์์ layer์ผ์๋ก ํน์ ๊ธฐ๋ฅ์ activate๋๋ค.
์คํ3ย : ์์ ์คํ์์ ๊ธฐ๋ฅ๋ณ๋ก score๊ฐ ๋์ ๋ด๋ฐ 50๊ฐ์ฉ ๋ชจ์์ ๊ทธ๋ฃนํ โ ๋ด๋ฐ ๊ทธ๋ฃน๊ฐ ์ ์ฌ๋ ์ธก์ - ์๋ก ๋ค๋ฅธ ๊ธฐ๋ฅ์ ๋ ๊ทธ๋ฃน์ ์ ์ฌ๋ ๋ฎ๋ค.
- (์ด์ฉ๋ฉด LLM์ ๋ด๋ฐ๋ณ๋ก ์ํํ๋ ๊ธฐ๋ฅ์ด ๋ช ํํ ๋ถ๋ฆฌ๋์ด ์๋ ๊ฒ์ ์ฃผ์ฅ)
Figure 9ย perturbation study์์, ํน์ ๊ธฐ๋ฅ์ ๋ํ ๋ด๋ฐ ์ ๊ฑฐ์ ๋ชจ๋ธ PPL ๋ณํ- ๋๊ฐ์ : ํน์ ๊ธฐ๋ฅ์ ๋ํ ๋ด๋ฐ์ ์ ๊ฑฐํ ํ ํด๋น ๊ธฐ๋ฅ์ ์ํํ ๋์ ์ฑ๋ฅ ํฌ๊ฒ ๋จ์ด์ง๋ค.
Personal note. ์ผ๋ถ๋ ์ด๋ฏธ ์งํํ์ธ ๋ถ๋ถ๋ ์๊ณ , ๋ค๋ฅธ ์ผ๋ถ๋ ์์ง์ ๋ฌ๊ตฌ๋ฆ๊ฐ์ ์๋ฆฌ์ผ ์๋ ์์ง๋ง, ๊ฑฐ์์ ์ธ ๊ด์ ์ ์ ์ํ๋ ์ฃผ์ฅ์ด์์ต๋๋ค. ๊ธฐ๋ฅ์ ์ด๋ป๊ฒ ๋๋๋๋๋, ๊ทธ๋ฃนํํ ๊ฒ๋, ๊ทธ์ ๋ํ ์ ์ฌ๋๋ฅผ ํ์ธํ ๊ฒ๋ ๋ชจ๋ ๊ฒฝํ์ ์ด์ง๋ง, ๋ง๊ณ ํ๋ฆฌ๋๋ฅผ ๋ ๋์ ์ผ๋ง๋ ๋์ ์์ผ๋ก ํธ๋ ๋๋ฅผ ๋ณด๋ ค๊ณ ํ๋์ง๋ ์ค์ํ ๊ฒ ๊ฐ์์ ๊ณต์ ๋๋ ค๋ด ๋๋ค. ๋ถ๋์ ์ ๋ฆฌํ์ง ์์์ง๋ง ๋ ผ๋ฌธ ๋ทํธ์ ์ ์ํ๋ Discussion ๋ฑ๋ ๋๋ฆ ํฅ๋ฏธ๋ก์ด ๋ถ๋ถ๋ค์ ๊ผฌ์ง์ด์ ํฅํ ์๋ก์ด ์ฐ๊ตฌ ์ ์ํ ๋ ๊ด์ฌ๊ฐ์ ธ๋ด์ง ํ๋ค๊ณ ์๊ฐํฉ๋๋ค.