Reverse Thinking Makes LLMs Stronger Reasoners
Meta info.
- Authors: Justin Chih-Yao Chen, Zifeng Wang, Hamid Palangi, Rujun Han, Sayna Ebrahimi, Long Le, Vincent Perot, Swaroop Mishra, Mohit Bansal, Chen-Yu Lee, Tomas Pfister
- Paper: https://arxiv.org/pdf/2411.19865
- Affiliation: Google Cloud AI Research, Google DeepMind, UNCChapel Hill
- Published: November 29, 2024
TL; DR
LLM์ด '์ญ๋ฐ์'์ ํ์ตํ๋๋ก ํ๋ จํ๋ฉด ์์, ์ํ, ๋
ผ๋ฆฌ์ ์ถ๋ก ๊ฐ์ task ์ฑ๋ฅ ํฅ์์ ํฐ ๋์. x10๋งํผ์ forward training(standard finetuning)๋ณด๋ค ์ฑ๋ฅ์ด ๋ฐ์ด๋๋ค๊ณ ์ฃผ์ฅ.






Suggestion
Distillation ๋ฐฉ์์ผ๋ก ์ญ๋ฐฉํฅ ์ถ๋ก ํ์ตํ๋ REVTHINK ํ๋ ์์ํฌ ์ ์
- data augmentation: ๊ต์ฌ ๋ชจ๋ธ์ fs prompting์ ํตํด (1) forward reasoning(CoT), (2) backward ์ง๋ฌธ, (3) backward reasoning(CoT)์ ์์ฑํ์ฌ ๋ฐ์ดํฐ ์ฆ๊ฐ
- training objective: ์ ํํ forward reasoning (vanilla knowledge distillation) + backward ์ง๋ฌธ ์์ฑ + ์์ ์์ฑํ ์ง๋ฌธ์ ๋ํ ์ ํํ backward reasoning
- test time inference: ํ์ ๋ชจ๋ธ์ forward reasoning๋ง ์ํ.
Effects
- ํ์ ๋ชจ๋ธ์ zs ์ฑ๋ฅ๋ณด๋ค ํ๊ท 13.53% ํฅ์, standard KD(forward inference only) ๋ณด๋ค 6.84% ํฅ์
- forward reasoning ๋ฐ์ดํฐ์ 10%๋ง ์ฌ์ฉ, 10๋ฐฐ ๋ ๋ง์ forward reasoning์ผ๋ก vanilla finetuning ๋ฐฉ๋ฒ๋ณด๋ค ์ฑ๋ฅ ์ข์์
Personal note. ๊น๋ํ ๋ฐฉ๋ฒ์ผ๋ก ํจ๊ณผ์ ์ธ ๊ฒฐ๊ณผ. ์ญ๋ฐ์ ์์๋ฅผ ๋ค๋ฉด โ์ฌ๊ณผ 2๊ฐ๋ ๋ฐฐ 3๊ฐ๊ฐ ์๋ค๋ฉด ๊ณผ์ผ ์ด ๋ช ๊ฐ ์๋์?โ ๊ฐ์ ์ฐ์๋ฌธ์ ์ ๋ํด forward ๋ 2+3=5 ๊ฐ์ ๊ตฌ์กฐ๋ผ๋ฉด backward๋ โ5๊ฐ ๊ณผ์ผ์์ ๋ฐฐ 3๊ฐ ์๋ค๋ฉด ์ฌ๊ณผ๋ ๋ช ๊ฐ ์๋์?โ ๊ฐ์ด ์ถ๋ก ์ํค๋ ๊ฒฝ์ฐ. ๋ง์ฝ forward reasoning์์ 5๊ฐ ์๋๋ผ 6์ผ๋ก ์๋ชป ์ถ๋ก ๋๋ค๋ฉด bacakward reasoning์์ ์์ ๋ ์ฌ์ง..