Larger language models do in-context learning differently
Meta info.
- Authors: Jerry Wei, Jason Wei, Yi Tay
- Paper: https://arxiv.org/abs/2303.03846
- Affiliation: Google Research, Stanford Univ.
TL; DR
์ถฉ๋ถํ ํฐ LLM์ ์ฌ์ ํ์ต๊ณผ ๋ฐฐ์ฒ๋๋ label์ด ์ฃผ์ด์ง๋๋ผ๋, ์ฌ์ ํ์ต ๋ด์ฉ์ ๋ฎ์ด๋๊ณ ์๋ก ์ฃผ์ด์ง label๋ก override ํ ์ ์์. ์ด ๋ฟ๋ง ์๋๋ผ ์ถฉ๋ถํ ํฐ LLM์ label์ ์๋ฏธ์ ์ผ๋ก ๊ด๋ จ ์๋ label๋ก ๋์ฒดํด๋ ์ฑ๋ฅ์ด ๋์ด.





Suggestions
์ธ์ด๋ชจ๋ธ์ ICL์ด input-label ๋งคํ๊ณผ semantic priors์ ์ด๋ป๊ฒ ์ํฅ์ ๋ฐ๋์ง์ ๋ํด 1) flipped label 2) semantically unrelated label ๋ ๊ฐ์ง์ ICL setting์ ๋ํ ์กฐ์ฌ ์งํ. (pic 1)
- flipped label ICL ์คํ: LLM(GPT-3.5, PaLM ๋ฑ)์์๋ง semantic priors override๊ฐ ๊ธฐ๋ฅํจ.
- ๋ง์ฝ pretrain์์ ๋ฐฐ์ด ๋ด์ฉ(์ง์)๊ณผ ๋ชจ์๋๋ ๋ด์ฉ์ด context๋ก ๋ํ๋๋ฉด, ์์ ๋ชจ๋ธ์ context์ ๋ฑ์ฅํ ๋ชจ์๋ ๋ด์ฉ(flipped label)์ ๋ฌด์ํ๊ณ pretrain์์ ๋ฐฐ์ด ๋ด์ฉ(์ง์, ๋ ผ๋ฌธ์์๋ semantic priors)์ ์์กดํ๋๋ฐ
- ํฐ ๋ชจ๋ธ์ (์ธ๋ป ์๊ฐํ๋ฉด ๋์ฑ ๊ทธ ๊ฒฝํฅ์ฑ์ด ๋๋ ทํ ๊ฒ ๊ฐ์ผ๋) pretrain์์ ๋ฐฐ์ด priors(์ง์)์ ๋ชจ์๋๋ context(exampler)๊ฐ ์ ์๋๋ฉด ๊ทธ priors๋ฅผ ๋ฌด์ํ๊ณ exampler๋ก๋ถํฐ ๋ฐฐ์ธ ์ ์์์. (pic 2)
- semantically unrelated label(SUL-ICL) ์คํ: context์ ์ ์๋ ์๋ก ์๋ฏธ์ ์ผ๋ก ์๋ฌด ์ฐ๊ด์ด ์๋ input-label ๋งคํ์ ๊ฐ์ ๋ก ํ์ต (e.g. neg/pos ๋ฅผ foo/bar๋ก ๋์ ํจ)ํ๋ ์คํ
- ์ค์ ๋ชจ๋ธ ๊ท๋ชจ๊ฐ ์ถฉ๋ถํ ํฐ ๊ฒฝ์ฐ linear classification๊น์ง ๊ฐ๋ฅ. (pic 3)
- instruction-tuning ์คํ: instruction-tuned ๋ชจ๋ธ์ ํ๊ฐํ ๊ฒฐ๊ณผ, semantic priors ์ฌ์ฉ๊ณผ input-label ๋งคํ ํ์ต ๋ฅ๋ ฅ์ ๋ชจ๋ ๊ฐํํ๋, ์ ์์ ๋ ๋ง์ ์ํฅ์ ๋ฏธ์น๋ ๊ฒ์ ํ์ธ
- ๋ ผ๋ฌธ์ ์คํ์ ์๋ก ๋ค๋ฉด, 2) SUL-ICL ์คํ์์ Flan-PaLM(instruction-tuned ๋ชจ๋ธ)์ PaLM๋ณด๋ค ์ฑ๋ฅ์ด ์ฐ์ํ๋(pic 4)
- ๋ฐ๋๋ก 1) flipped label ์คํ์์๋ PaLM์ด Flan-PaLM๋ณด๋ค ๋์์(pic 5)
- ์ฆ, instruction tuning์ ์ค์ ๋ก ์ฌ์ฉ๊ฐ๋ฅํ๋ค๋ฉด semantic priors์ ์ฌ์ฉ์ ๊ฐํํ๋ ๋ฏ.
Personal note. ์ด๋ฐ ์ฐ๊ตฌ๋ค์ ๋ณผ๋๋ง๋ค label verbalization์ด๋ prompt์ ํํ ๋ฐฉ์์ ๋ํ ํ๊ตฌ๊ฐ LLM์์๋ ๊ทธ๋ ๊ฒ ์๋ฏธ๋ฅผ ๊ฐ์ง์ง ์์ ์๋ ์๋ค๋ ์๊ฐ.. ICL ์ข ๋ง์ฐํ๊ฒ ์๊ฐํ์๋๋ฐ ์ง๋๋ฒ์ ๋ฆฌ๋ทฐํ๋ ๋ ผ๋ฌธ๋ค์ ์ฐ์ฅ์ผ๋ก ๋ฌ์ฑ๋ฌ์ฑ ํ์๋๋ฐ ์ด๋ ต์ง๋ง ํฅ๋ฏธ๋กญ๊ณ label verbalization์ด๋ prompt์ ํํ ๋ฐฉ์์ ๋ํ ํ๊ตฌ๋ prompt engineering์ด๋ผ๋ ์ด๋ฆ์ผ๋ก ์ด๋ฏธ ์ฌ๋๋ค์ด ํ ๋งํผ ํ ๊ฒ ๊ฐ์ต๋๋ค