Chain-of-Thought Reasoning Without Prompting
Meta info.
- Authors: Xuezhi Wang, Denny Zhou
- Paper: https://arxiv.org/pdf/2402.10200.pdf
- Affiliation: Google DeepMind
TL; DR
LLM์ decoding์ greedy decoding์์ top-k decoding์ผ๋ก ๋ฐ๊พธ๋ฉด prompt ์์ด๋ CoT reasoning ์ ๋ ๊ฐ๋ฅ




Suggestions
- ๋ช ์์ ์ prompting ์์ด ๋์ฝ๋ฉ๋ง ์ข ์กฐ์ํด์ฃผ๋ฉด CoT ๋น์ทํ๊ฒ ํ ์ ์๋ค. (๋ฌผ๋ก ๋์ฝ๋ฉ์ ์ถ๊ฐ ๊ณ์ฐ ๋น์ฉ ์์!)
- Greedy Decoding ๋์ ์ top-k์ ํ์์ ํ ํฐ๋ค์ ์กฐ์ฌํ์ ๋ ์ด ์ํ์ค์ CoT๋ฅผ ์งํํ๋ ๊ฒฝ๋ก๊ฐ ๋ น์์ง ๊ฒฝ์ฐ๊ฐ ๋ง์๋ค๊ณ .
- ์ด๋ฐ path๋ฅผ ํ ๊ฒฝ์ฐ (๋ ผ๋ฌธ์์๋ย CoT-decoding์ด๋ผ๊ณ ๋ช ๋ช ) ๋ชจ๋ธ ์ ๋ขฐ๋๋ ๋์์ง๋ ๊ฒฝํฅ.
Personal note. LLM(์ฌ๊ธฐ์๋ PaLM-2, Mistral-7B)์๊ฒ ์ง๋ฌธ์ ๋ฃ์ ๋ค์ ๊ฐ์ฅ ๋จผ์ ๋์ฌ ์ ์๋ ์์ k๊ฐ ํ ํฐ๋ค๋ก๋ถํฐ ๋ต๋ณ์ ์์ฑํ์ ๋, ๊ฐ์ฅ ํ๋ฅ ์ด ๋์ ํ ํฐ์ด ์๋ ๋ค๋ฅธ ํ ํฐ์ผ๋ก๋ถํฐ CoT์ค๋ฌ์ด & ํจ์ฌ confidentํ ๋ต๋ณ์ด ๋์ฌ ์ ์๋ค๊ณ ํฉ๋๋ค.
๋ค๋ง ๋ชจ๋ธ์ด ์ด๋ ์ ๋ ์ปค์ผ(PaLM-2 Large) ์ข ๋ณผ๋งํ ๋ต๋ณ์ ์ถ๋ ฅํ๊ณ , few-shot์ด๋ instruction finetuning์ ๊ฑฐ์น ๋ชจ๋ธ๋ณด๋ค ์ฑ๋ฅ์ด ๋ค์ฒ์ง๋ฉฐ, ๋ค๋ฅธ ๋ต๋ณ ํ์์ ์ถ๊ฐ์ ์ธ cost๊ฐ ๋๋ ๋ฑ ์ฌ๋ฌ ๋จ์ ์ด ์์ด ์์ง๊น์ง ๊ฐ๋ฅ์ฑ๋ง ๋ณด์ฌ์ค ๋ ผ๋ฌธ์ผ๋ก ๋ณด์ ๋๋ค.