Reasoning to Learn from Latent Thoughts
- Authors: Yangjun Ruan, Neil Band, Chris J. Maddison, Tatsunori Hashimoto
- Paper: https://arxiv.org/pdf/2503.18866
- Affiliation: Stanford Univ., Univ. of Toronto, Vector Institute.
- Published: March 24, 2025
TL; DR
LLM์ bootstrapping์ผ๋ก ๊ตฌ์กฐํ๋ internal reasoning representation(์ฌ๊ธฐ์๋ Token)์ธ latent thoughts ์์ฑ์ ํ์ตํ์ฌ reasoning ability ํฅ์ ๊ฐ๋ฅ์ฑ ์ ์










Background
CoT prompting์ ์ผ๋ฐํ๋ก intermediate reasoning step์ ์ ์ฉ์ฑ ํ์ธ
- ์ ์ LLM ํ์ตํ ๋ ์ค๊ฐ step์ผ๋ก ํ์ตํ๋๊ฑด ์๋์ง ์๋ (์ต์ข ๋ต๋ณ์ผ๋ก ํ๋)
Problem States
LLMํํ Reasoning step ์ค๊ฐ์๋ supervision์ ์ฃผ๋ฉด reasoning ์ฑ๋ฅ์ด ์ข์์ง์ง ์์๊น
Suggestions
BoLT (Bootstrapped latent thought) model ์ ์
- Latent Thought Sampling > Answer Generation ํ๋ฆ
- $Z
\sim q(Z|X; M_t)$
- Z: latent thoughts, CoT๊ฐ์ token sequence.
- $M_t$: t๋ฒ์งธ iteration์์์ ๋ชจ๋ธ. EM ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ํ์ต.
- objective: ELBO
- ์ข์ $Z$๋ฅผ ์ํ๋งํ๋ฉด์
-
$q(Z X)$๋ถํฌ๊ฐ prior $p(Z X)$์ ๋น์ทํ๋๋ก
- Expectation step:ย Z๋ฅผ K๊ฐ ์ํ๋ง > Z์ ํจ๊ปย $Y
\sim p(Y|X, Z; M_t)$์์ฑ
- Y์ ๋ํด ์ค์๋๊ฐ ๋๋ค๊ณ ์๊ฐํ๋ thought Z* ์ ํ
-
(๊ฐย $Z_k$๋ง๋คย $p(Y X, Z_k)$ย log-likelihood ๊ธฐ๋ฐ์ผ๋ก weight w๋ก ํ์ฉ)
- Maximization step: {Z*, X, Y}๋ก ๋ชจ๋ธ ํ์ตํด์ $M_{t+1}$ ์
๋ฐ์ดํธ
- p๋ฅผ ์ํด
, q๋ฅผ ์ํด , Z์ ์์๊ณผ ๋์ ์๋ฆฌ๊ธฐ ์ํด <start/endoflatent> ํ์ฉ - $Z$๋ฅผ $X$๋ ๊ฐ์ด ํ์ตํ๊ธฐ ์ํด ๋ฐ์ดํฐ ํฌ๋งทํ ์ ์ ์
-
posterior $q(Z X)$: Z ์์ธก๋ชจ๋ธ (๋ฌธ์ $X$๋ฅผ ๋ณด๋ฉด ๋ฌด์จ ์๊ฐ$Z$๊ฐ ๋ ์ฌ๋ผ?) >ย ๋ฌธ์ ๋, ์๋ง ํ์ตํ๋ฉด Z๊ฐ ์ง์ง reasoningํ๋ Z๊ฐ ์๋๋ผ, ๋ณด๊ณ ์๋ ๋ฌธ์ ์๋ง ๋ง๋ Y๋ฅผ ๋ง์ถ๋๋ฐ์ ํํธ๋ก์จ๋ง ์ญํ ํ๋ hacky reasoning์ด ๋ ์ฐ๋ ค=overfitting) - joint $p(Z,X)$: $Z$๋ $X$๋ฅผ ๊ฐ์ด ์์ฑํ๋ ๋ชจ๋ธ (์ ๋ต ์๊ฐ $Z^*$๊ฐ ์๋ค๋ฉด X๊ฐ์ ๋ฌธ์ ์๊ฒ ๋ค ์ ํ๋ฆ) >ย
Z๊ฐ ์ ๋ง ๊ด์ฐฎ์ ์๊ฐ์ด๋ผ๋ฉด Z๋ง ๋ด๋ X๊ฐ ๋ญ์ง ์ ์ ์์ง ์๋? ๊ฐ์ ์ ์ฝ์ Z์ ์ฃผ๋ฉด์ ๋จ์ Y๋ง ๋ณด๊ณ ๋ง๋ค์ง ์๋๋ก ์๋.
- p๋ฅผ ์ํด
Effects
- Experiments setup
- Benchmarks: MATH, GSM8K
- backbone: TinyLlama-1.1B
- EM iteration์ 4ํ ๋ฐ๋ณต
- baseline
- Raw Token Match: latent thought์์ด raw-corpus๋ง์ผ๋ก BoLT๋งํผ ๋์ผํ ํ ํฐ์ ํ์ต
- Train FLOP Match: ๋ ์์ corpus๋ฅผ ์ฌ๋ฌ๋ฒ ๋๋ ค์ FLOP ์ฐ์ฐ๋๋ง BoLT๋งํผ ๋ง์ถฐ ํ์ต
- Latent Warmstart: M_0(gpt-4o-mini)๊ฐ ์์ฑํ synthetic latent๋ก Z๋ฅผ ์จ์ ์์ํ ๋ชจ๋ธ (bootstrapping ์์)
- results:
- latent thought๊ฐ๋
์ ์ ์ฉํ BoLT๊ฐ ๊ทธ๋ ์ง ์์ baseline๋ค์ ๋ํด SOTAย
tab 1 - ELBO objective๋ iteration ๋ ๋๋ง๋ค ๊ฐ์ > ์ค์ downstream task ์ฑ๋ฅํฅ์ย
Fig 8- ELBO loss ๋จ์ด์ง๋ฉด์ MATH ์ฑ๋ฅ ๊ฐ์ (warm start๋ถํฐ iter=4๊น์ง )
- fine-tuning์์๋ BoLT๊ฐ raw-data๋ณด๋ค ์ ์ตย
Fig 9- MATH๋ ๊ณ์ ํฅ์๋๋๋ฐ์๋นํด GSM8K๋ iter=2์ดํ plateau
- bootstrapping์ ๋ฐ๋ณตํ ์๋ก ๊ฐ์ ๋จ ํ์ธย
Fig 11
- latent thought๊ฐ๋
์ ์ ์ฉํ BoLT๊ฐ ๊ทธ๋ ์ง ์์ baseline๋ค์ ๋ํด SOTAย
Personal note. ๊ฐ๋ง์ ์ข์ ๋ ผ๋ฌธ ๊ฐ์์. Latent ๊ฐ๋ ์ ์ฐ๊ธด ํ๋๋ฐ ๊ทธ๋ ๋ค๊ณ vector๋ก ๊ฐ์ ธ์จ๊ฑด ์๋๋ผ์ ๋์ผ๋ก ํด์ํด๋ด์ง ํ๋จ๊ฒ๋ ๊ทธ๋ ๊ณ (์ด ์ฐ๊ตฌ์์ ์ต์ด ์ ์ํ ๋ฏ), CoT๋ ์ด์จ๋ inference-time์ reasoning์ด๊ธด ํ๋๊น training์ ์ด๋ป๊ฒ reasoning๊น์ง ํ์ตํ ์ง๋ฅผ ๊ตฌ์ฒด์ ์ผ๋ก ๋์์ธํด์ ์ ์ฉํด๋ณด๊ณ , ๋ชจ๋ธ์ ์์ฑ ๊ฒฐ๊ณผ reasoning์ ์ค์ ํ์ต์ ๋ค์ ๋ฃ๋ self-improvement๋ผ๋ ์ง์ ์ด ์ด๋ก ์ ์ผ๋ก๋ ์คํ์ ์ผ๋ก๋ ๊ฒ์ฆ๋ ์ , ๋ชจ๋ธ์ด joint๋ posterior ๊ตฌ์กฐ ํ์ตํ๋ ค๊ณ special token์ ํ์ฉํ์ ์ด ๋๋ํ๋ค๊ณ ์๊ฐํฉ๋๋ค. iteration ๋ ๋๋ง๋ค ๋น์ผ๊ฑฐ (๊ทธ๋์ 1.1B ๋ชจ๋ธ๋ก ์คํํ ์๋ฐ์,,,) EM์๊ณ ๋ฆฌ์ฆ ํน์ฑ์ Z initialization์ด ์ด๋ป๊ฒ ๋๋์ง์ ์์กด๋๊ฐ ํด๊ฑฐ๋ผ๋ ์ ์ด ๊ตฌ์กฐ์ ํ๊ณ์ธ๊ฑฐ๋ z๋ ์ด์จ๋ backbone์ upperbound์ ์ ์ฝ์ด ์๊ธด ํ๋ค๋ ์ ์ ๋น์ฐํ ํ์์ฐ๊ตฌ๊ฐ ํ์ํ๊ฒ ์ง๋งโฆ