Blending is All You Need
Meta info.
- Authors: Xiaoding Lu, Adian Liusie, Vyas Raina, Yuwen Zhang, William Beauchamp
- Paper: https://arxiv.org/pdf/2401.02994.pdf
- Affiliation: Cambridge Univ., Chai Research, UCL
TL; DR
์ฌ๋ฌ ๊ฐ์ ์์ ๋ชจ๋ธ์ Blendํด์ ํ๋์ ํฐ ๋ชจ๋ธ๊ณผ ๋น์ทํ ํน์ ๋ ๋์ ์ฑ๋ฅ์ ๋ผ ์ ์๋ค.





Suggestions
- blending: ์ฌ๋ฌ ์์คํ ์ค ํ๋ฅ ์ ์ผ๋ก ํ ์์คํ ์ด ๋ต๋ณ ์์ฑ์ ๋ด๋น
- ensembling:ย Bayesian statistics ์์น์ ๋ฐ๋ผ ChatAI๊ฐ ํน์ ์๋ต์ ํ ๋นํ๋ ํ๋ฅ ์ marginal expectation๋ก ๊ฐ๋ ํํ ์ ์๋ค๊ณ . ์ฌ๋ฌ ChatAI ์์คํ ์ด ๊ฒฐํฉ๋ ๊ฒฝ์ฐ, ์ ์ฒด ์์คํ ์ด ๊ฐ๋ณ ์์คํ ์ ๊ฒฐํฉ ํ๋ฅ ์ ๊ธฐ๋ฐ์ผ๋ก ๊ฐ์ฅ ๊ฐ๋ฅ์ฑ์ด ๋์ ์๋ต์ ์ถ์ ํ์ฌ ์ ์ฒด์ ์ธ ์๋ต ์ฑ๋ฅ ํฅ์ํ ์ ์์. (pic1, 2)
- โIntegrating just 3 models of moderate size (6B/13B) can rival or even surpass the performance metrics of a substantially larger model like ChatGPT (175B+)โ (pic3)