Concise Thoughts: Impact of Output Length on LLM Reasoning and Cost
Meta info.
- Authors: Sania Nayab, Giulio Rossolini, Giorgio Buttazzo, Nicolamaria Manes, Fabrizio Giacomelli
- Paper: https://arxiv.org/pdf/2407.19825
- Affiliation: Mediavoice Srl- Roma e Napoli, Scuola Superiore SantโAnna
TL; DR
๋จ์ํ๊ฒ prompt์ ๊ธธ์ด ์ ํ์ ๊ฑธ์ด๋ ์ฑ๋ฅ์ ๋ณ ์ํฅ์ด ์๊ฐ๋ฉด์ ํจ์จ์ ์ถ๋ก ๊ฐ๋ฅ




Problem States
CoT๋ก LLM ์ฑ๋ฅ์ด ์ข์์ง๋๋ผ๋, ๊ทธ์ ๊ฑธ๋ฆฌ๋ ์๊ฐ ์ฆ๊ฐ. (pic1)
Suggestion
Constrained Chain-of-Thought(CCoT) ์ํฅ ํ์ธ
- CCoT: explictํ๊ฒ ํ๋กฌํํธ์์ output ๊ธธ์ด ์ ํ (
pic2)- ์๋ต์ ์ต๋ ๋จ์ด ์ ์ ํ โ ์ถ๋ก ์๊ฐ ๋จ์ถ
- ๊ธธ์ด๊ฐ ์ค์ด๋ ์๋ต ์ ํ๋๋ฅผ ๋ฎ์ถ์ง๋ ์์๋ค๊ณ .
- e.g.
- CoT: Letโs think step by step
- CCoT: etโs think step by step and limit the answer length to 45 words
Effects
RQ1ย CCoT๊ฐ ํจ์จ์ฑ ๋ฐ ์ ๊ทผ์ฑ ์ธก๋ฉด์์ ์ ์ตํ๊ฐ? (pic3)- LLaMA2-70b ๊ธฐ์ค, reasoning length๋ฅผ 100๋จ์ด๋ก ์ ํ์ GSM8K 36.01% > 41.97%๋ก ํฅ์, ํ๊ท 28๋จ์ด ๊ฐ์
RQ2ย CoT ๋๋น CCoT๊ฐ ์ ์ตํ ๋ชจ๋ธ์ ์ด๋ค ๋ชจ๋ธ์ธ๊ฐ?- ๋ํ๋ชจ๋ธ์ผ์๋ก ์ ๋ฆฌํ๋ฏ. ๊ฐ๋ น LLaMA2-70b๋ Falcon-40b ์ ๋.
- Falcon-7b / Vicuna-13b ๋ฑ์์๋ ์ญํจ๊ณผ ๋๊ธฐ๋.
RQ3ย explicit ํ๊ฒ prompt๋ก output ๊ธธ์ด ์ ํํ๋๊ฒ ์ ๋๋๊ฐ?- ๋ชจ๋ธ ์ฌ์ด์ฆ๊ฐ ํด์๋ก output ๊ธธ์ด ์ ํ์ ์ํ๊ณ ์ ํ๋ ์ ์ง ๋ฐ ๊ฐ์ ์๋ ํจ๊ณผ
RQ4ย ์ ์ํ๋ metric์ด ํจ๊ณผ์ ์ผ๋ก ๊ฐ๊ฒฐ์ฑ ๋ฐ ์ ํ์ฑ์ ๋ชจ๋ ํฌ์ฐฉํ๋๊ฐ?- ์ ์ํ๋ metric
- Hard-k Concise Accuracy (HCA): ๊ธธ์ด ์๋์น๊ฒ ์ ๋ต์ธ์ง (
pic4) - Soft-k Concise Accuracy (SCA): ๊ธธ์ด ์๋์น๊ฒ (์ค์ฐจ ๋ฒ์์ decay factor ์ถ๊ฐ) ์ ๋ต์ธ์ง
- Consistent Concise Accuracy (CCA): output ๊ธธ์ด ์ผ๊ด์ฑ๊น์ง ํจ๊ป ๊ณ ๋ ค (๊ธธ์ด ๋ณ๋์ฑ์ negativeํ๊ฒ ๊ณ ๋ ค)
- Hard-k Concise Accuracy (HCA): ๊ธธ์ด ์๋์น๊ฒ ์ ๋ต์ธ์ง (
- CoT ๋ฐ base prompt ๋๋น ์ ํ๋ ๋ฐ ์๋ต ๋ณ๋์ฑ ๊ฐ์ ๋ฑ์ ํ์ธ
- ์ ์ํ๋ metric
Personal note. ๋จ์ํ๊ฒ prompt์ ๊ธธ์ด ์ ํ์ ๊ฑธ์ด๋ ๋ณ ์ํฅ์ด ์๊ฐ๋ค๋ ์ด์ผ๊ธฐ๊ธฐ๋ ํ๋ฐ, GSM8K๋ง ๊ฐ์ง๊ณ ๋ด์ ์ผ๋ฐ์ ์ธ ๊ฒฐ๊ณผ์ธ์ง๋ ์์ฌ์ค๋ฝ๋ค์.