Knowledge Fusion of Large Language Models
Meta info.
- Authors: Fanqi Wan, Xinting Huang, Deng Cai, Xiaojun Quan, Wei Bi, Shuming Shi
- Paper: https://arxiv.org/pdf/2401.10491.pdf
- Affiliation: Sun Yat-sen Univ., Tencent AI
- Code: https://github.com/fanqiwan/FuseLLM
- Conference: ICLR2024
TL; DR
๊ธฐ์กด์ ๊ฐ๊ธฐ ๋ค๋ฅธ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๋ฉด์ ๋ค์ํ ๋ฐฉ์์ผ๋ก ํ์ต๋ ์ฌ๋ฌ LLMs(soucre LLMs)์ ๋ณํฉํด์ ๋ strongํ๊ฒ ๋ง๋๋ ๋ฐฉ๋ฒ(pic1)์ผ๋ก, ์ฌ๋ฌ LLM์ ์ง์์ ์ธ๋ถํํ์ฌ ๊ทธ๋ค์ capability๋ฅผ ์๋ก์ด LLM(target LLM)์ผ๋ก transferํ๋ ๋ฐฉ๋ฒ์ ์ ์(pic2)




Suggestions
- source LLMs: ๊ฐ๊ธฐ ๋ค๋ฅธ ๋ฐ์ดํฐ์ ์ ๋ํด ๊ฐ๋ณ์ ์ผ๋ก training/fine-tuning๋์ด ๋ค์ํ ๊ฐ์ ๊ณผ ์ง์ ๊ธฐ๋ฐ์ ๊ฐ์ง. ๊ฒฐํฉํ๊ธฐ ์ , ๊ฐ source LLM์ ์ผ๋ถ ๋ฐ์ดํฐ์ ๋ํด prediction ์๋(๊ฐ LLM์ด ์๊ณ ์๋ ๊ฒ(๊ฐ์ ์ด) ๋ฌด์์ธ์ง ํ์ธ) ํ ๊ฐ ์์ธก ํ๊ฐ, ๊ฐ์ฅ ์ ํํ ์์ธก์ผ๋ก LLM ํ์ต. (next token prediction, causal language modeling objective==minimizing negative log-likelihood)
- target LLM: source LLMs๋ฅผ ์ตํฉํด์ ๋ง๋๋ ค๋ LLM. ์ต์ข ์ ์ผ๋ก source ์ target ์์ธก๊ฐ Divergence๋ฅผ ์ค์ด๋ ๊ฒ์ด objective.
Effects
Llama-2, MPT, OpenLLaMA ์ฌ์ฉ, BBH/CS/ME ์ธ task์์ ํ์ธ(pic3, 4), ์ ๋ฐ์ ์ผ๋ก ์ ์ํ FuseLLM์ด ํ๊ท ์ฝ 6.36%์ ์ฑ๋ฅ ํฅ์.
- BBH: ๋์ฒด๋ก FuseLLM์ด (source ์ค ๊ฐ์ฅ ๋์๋) Llama-2 ๋๋น 5.16% ์ฑ๋ฅ ํฅ์, ์ผ๋ถ Dyck Languages ๋ฑ์์์ ๋ฎ์ ์ฑ๋ฅ์ ๋ค๋ฅธ source LLM์ ์ฑ๋ฅ์ด ์ข์ง ์์๊ฑฐ๋ ํ์ต ๋ฐ์ดํฐ๊ฐ ์ค์ ๋ ๋ฐ์ ํ๊ฒ ๊ด๋ จ๋์ด ์์ง ์์์ ์ ์๋ค๊ณ ๋ถ์.
- CS: ์ผ๊ด๋๊ฒ ๋ ๋์ ์ฑ๋ฅ. ARC, OpenBookQA ์ฒ๋ผ ์ด๋ ค์ด task์์ ๋ ํฐ ๊ฐ์ .
- ME (Code Generation): Llama-2๋ณด๋ค ์์ ๊ฒ ํ์ธ ๊ฐ๋ฅํ์ง๋ง, ์์ง ๊ฐ์ ์ฌ์ง ์์.
- ๋ค๋ฅธ task๋ค์ ๋ํด์๋ appendix ์ฐธ๊ณ .