Reasoning with Sampling: Your Base Model is Smarter Than You Think
Meta info.
- Authors: Aayush Karan, Yilun Du
- Paper: https://arxiv.org/pdf/2510.14901
- Affiliation: Harvard Univ.
- Published: October 16, 2025
TL; DR
์ถ๊ฐ ํ์ต ์์ด ๋จ์ MCMC ๊ธฐ๋ฐ ์ํ๋ง๋ง์ผ๋ก LLM์ base model์ด RL๋ก post-training๋ ๋ชจ๋ธ ์์ค์ ์ถ๋ก ๋ฅ๋ ฅ ๋ผ ์ ์๋ค.

Background
- LLM์ RL๊ธฐ๋ฐ post training์ด ์ผ๋ฐํ๋๊ณ , ์ด๋ ๊ฒ ํ์ต๋ ๋ชจ๋ธ์ ์๋ฆฌ์ถ๋ก , ์ฝ๋ฉ ๋ฑ์์ ๋์ ๋๋ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ง
- ๊ทธ๋ ๋ค๊ณ RL ๋ฑ์ด ์๋ก์ด ๋ฅ๋ ฅ์ ํ์ตํ๊ฒ ํ๋ ๊ฑด ์๋๋ผ๋ ๊ฒฌํด๋ ๋ฑ์ฅ [He et al. 2025, Yue et al. 2025]
- RL์ ๊ทธ๋ฅ SFT ๋ชจ๋ธ์ด ์ด๋ฏธ ์ํ๋ high-likelihood reasoning ๊ฒฝ๋ก๋ฅผ ์ง์ค์ ์ผ๋ก ์ ํํ๊ฒ ๋ง๋ค ๋ฟ
Problem States
์ถ๊ฐ ํ์ต ์์ด๋, ๋จ์ํ ์ํ๋ง ๊ณผ์ ๋ง ์กฐ์ ํด์ RL ์์ค์ reasoning ๋ฅ๋ ฅ์ ๋์ด๋ผ ์ ์๋๊ฐ?
- RL ๋น์ฉ์ด ๋น์ธ๋, inference-time only๋ก base model์ shapeํ๊ฒ resamplingํ๊ธฐ
Suggestions
Power sampling via MCMC
- power distribution sampling : ๋ชฉํ ๋ถํฌ p_\alpha์ธ p(x)p(x)๊ฐ >1์ธ ๊ฒฝ์ฐ ์ด๋ฏธ ๋ชจ๋ธ์ด ๋๊ฒ ํ๊ฐํ ํ๋ณด (ํ ํฐ ํ๋ฅ ์ด ๋์)๊ฐ ๊ฐํ ; test-time ์ ์ฉ Sampling ์๊ณ ๋ฆฌ์ฆ
- ์ ์ฐจ: ๋ฌธ์ฅ์ block ๋จ์(B) ๋ก ์๋ผ์ ์ ์ง์ ์ผ๋ก ํ๋ฅ ๋ถํฌ p_\alpha์ ๋ง๊ฒ ์ํ๋ง
- ๊ธธ์ด T์ง๋ฆฌ ์ ์ฒด ๋ฌธ์ฅ์ ํ ๋ฒ์ ์ํ๋งํ๋ ๊ฒ์ ๊ณ์ฐ ๋ถ๊ฐํ๋ฏ๋ก, ๋์ B๊ธธ์ด๋งํผ์ k๊ฐ ๋ธ๋ก์ผ๋ก ๋๋
- (k๊ฐ ๋ธ๋ก) * (๊ฐ ๋ธ๋ก๋ณ ๊ธธ์ด B)๊น์ง์ joint likelihood(=p_\alpha)๋ฅผ ์ค๊ฐ๋ชฉํ๋ก ์ค์
- k=0์์ ์์(์งง์ ๋ฌธ์ฅ๋ถํฐ)ํด์
- k=1์์ ์ฒซ block ๊ธฐ์ค์ผ๋ก p_\alpha์ ๋ง๊ฒ ์ํ๋ง
- ์ ์ ๊ธด ์ํ์ค๋ฅผ ์ํด ์์ prefix๋ก ๊ณ ์ > ๋ค์ B๊ธธ์ด์ฉ ๋ถ์ฌ๊ฐ๋ฉด์ MCMC*๋ก ๋ชจ๋ธ๋ง
- ์ต์ข T ๋งํผ ๊ธธ์ด์ ๊ทผ์ฌ
- ๊ฐ block๋ง๋ค MetropolisโHastings(MH) ์ ์ฐจ๋ก โresample > accept/rejectโ.
- ์ด๋ฏธ ๋ง๋ค์ด์ง ๋ฌธ์ฅ ์ค ์ผ๋ถ ํ ํฐ์ ๋ฌด์์๋ก ๊ณจ๋ผ์ p_prop์ผ๋ก resampleํด๋ณด๊ณ
- ๊ทธ ๊ฒฐ๊ณผ๊ฐ p(x)๋ณด๋ค ๋ ๋์ likelihood๋ฉด ๊ต์ฒด(accept) ์๋๋ฉด ์ ์ง(reject)
- p_prop: base model์ sampling temperature๋ฅผ 1/\alpha ๋ก ์ค์ ํด์ ์ฝ๊ฐ sharpen๋ ๋ฒ์ ์ผ๋ก์ฌ์ฉ. ์ฆ ์ ํ๋ณด ๋ฌธ์ฅ์ ์์ฑํ๋ ์ ์ ๋ถํฌ
- ์ ์ฐจ: ๋ฌธ์ฅ์ block ๋จ์(B) ๋ก ์๋ผ์ ์ ์ง์ ์ผ๋ก ํ๋ฅ ๋ถํฌ p_\alpha์ ๋ง๊ฒ ์ํ๋ง
- ) MCMC: ๋ณต์กํ ๋ถํฌ์์ ์ํ์ ์ง์ ๋ฝ๊ธฐ ์ด๋ ค์ธ ๋, ์กฐ๊ธ์ฉ ์์ง์ด๋ฉด์ ์ ์ง์ ์ผ๋ก ๊ทธ ๋ถํฌ๋ฅผ ๋ฐ๋ผ๊ฐ๋๋ก
- Markov Chain- ์ด์ ์ํ์ ์์กดํด์ ์ ํ๋ณด ์์ฑ
- Monte Carlo- ๋๋ค์ํ๋ง ๋ฐ๋ณต์ํ
- test-time scaling: MCMC step ์ N ๊ฐ ์ถ๋ก ์๊ฐ๊ณผ ์ฑ๋ฅ์ ํธ๋ ์ด๋-์คํ๋ฅผ ๊ฒฐ์ ํ๋๋ฐ, ์ฝ 8.8๋ฐฐ ์ถ๊ฐ ๊ณ์ฐ๋์ด ํ์ํ์ง๋ง training-free๋ผ๋ ์ ์ ๊ฐ์กฐ
Fig 6
- low-temperature sampling๊ณผ ์ฐจ์ด: ๊ฐ ์์ ์ ์กฐ๊ฑด๋ถ sharpen ์ํํ๋ ๋ฐ๋ฉด, power dist.๋ ๋ฏธ๋ ํ ํฐ ์ ์ฒด likelihood trajectory๋ฅผ ๊ณ ๋ คํ ์ํ๋ง
Effects
- Experimental setup:
- backbone: Qwen2.5-Math-7B / Qwen2.5-7B / Phi-3.5-mini-instruct
- baseline: Base / Low-temperature sampling / Power Sampling (์ ์๋ฐฉ์) / RL-post training (GRPO)
- benchmark: MATH500(์๋ฆฌ์ถ๋ก ), HumanEval(์ฝ๋ฉ), GPQA (๊ณผํ), AlpacaEval 2.0
- domain ๊ตฌ๋ถ;
- in-domain: RL์ด ํ์ต๋(๋๋ post-training๋) ํ์คํฌ์ ๋์ผํ ์์ญ
- ood: RL ํ์ต ๋ ๋ณด์ง ๋ชปํ, ๋๋ฉ์ธ์ด ๋ค๋ฅธ ์์ญ
- Results
Tab 1/Fig 1Training ์์ด๋ single-shot reasoning ์ฑ๋ฅ ๊ฐ์ ํ์ธ- in-domain์ธ MATH500์ ์ ์ ๋ฐฉ์์ด RL ์์ค์ ๊ทผ์ ํ๊ณ
- ood ์ธก๋ฉด์์ HummanEval, AlpacaEval์ด RL ๋ณด๋ค 3-5%p ํฅ์
Fig 4Likelihood ํ์ธ- Power Sampling์ base model์ ๋์ likelihood ๊ตฌ๊ฐ์ ํญ๋๊ฒ ์ปค๋ฒ
- GRPO๋ ์ต๊ณ likelihood ๊ทผ์ฒ๋ก ์ง์ค(=mode collapse)
- Confidence ๋ถํฌ ์ญ์ GRPO๊ฐ ๊ฐ์ฅ ๋์ง๋ง ๋๋ฌด ๋พฐ์กฑ..
- Power Sampling์ ๊ทธ ๋ฐ๋ก ์๋ ์์ค์ผ๋ก ๊ท ํ์ sharpness ์ ์ง.
- Power Sampling์ base model์ ๋์ likelihood ๊ตฌ๊ฐ์ ํญ๋๊ฒ ์ปค๋ฒ
Fig 5Diversity ํ์ธ: single + multi-shot ๋ชจ๋ ๊ฐ์- pass@k (multi-shot) ์ฑ๋ฅ: ์ ์์ด ๊ฐ์ฅ ์ข์๊ณ GRPO>base ์
- RL์ diversity collapse๋ก k๋์ด๋ฉด ์ฑ๋ฅ ์ ์ฒด๋จ
- ์ ์ ๋ฐฉ์์ k>1์์ ๊พธ์คํ ์์น๋จ ํ์ธ
- pass@k (multi-shot) ์ฑ๋ฅ: ์ ์์ด ๊ฐ์ฅ ์ข์๊ณ GRPO>base ์
Personal note. test-time์์ memory๋ preference ์ ์ด ๊ฐ๋ฅ์ฑ์ ๋ํด์ ๊ณ ๋ฏผํด๋ณด๋ค๊ฐ ์ฝ์ด๋ดค๋๋ฐ, ์์ด๋์ด๊ฐ ๋จ์ํด๋ณด์ฌ์ ๊ณต์ ๋๋ฆฝ๋๋ค.ย ย reasoning์ ํ์ต์ ์์ญ์ด ์๋๋ผ ํ์ ๋ฌธ์ ๋ผ๊ณ (๊ฑฐ์น ๊ฒ) ์์ฝํ ํ์ดํผ๋ผ๊ณ ๋ณผ ์ ์๊ฒ ์ต๋๋ค. ์ด์ ์ธ๋ฏธ๋์์ ์ธ๊ธํ ๋ฌธ์ ์ญ์ ์ผ๋ถ ์ํตํ๋ ๋ถ๋ถ์ด ์๋ ์ ๋ ํฅ๋ฏธ๋ก์ ๊ณ ์. ์ํ์ ํด์๋ ๋๋ฆ ๊ผผ๊ผผํ๊ธด ํ๋ฐ, ์ high-likelihood sampling์ด reasoning correctness์ ์ฐ๊ฒฐ๋๋์ง๋ ์์ง ์ค๋ช ์ด ๋ถ์กฑํ๋ค๋ ์ธ์์ด ์์์ต๋๋ค. (causation์ด ๋ถ์กฑํ๋ฐ ์ด์ฉ ์ ์๋ค๊ณ ๋๋๋๋ค.)