A Theoretical Study on Bridging Internal Probability and Self-Consistency for LLM Reasoning
Meta info.
- Authors: Zhi Zhou, Yuhao Tan, Zenan Li, Yuan Yao, Lan-Zhe Guo, Yu-Feng Li, Xiaoxing Ma
- Paper: https://arxiv.org/abs/2510.15444
- Affiliation: Nanjing University, ETH Zurich
- Conference: NeurIPS 2025
- Published: October 17, 2025
TL; DR
Sampling-based test-time scaling์ ์ฒซ ์ด๋ก ์ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๊ณ , SC์ PPL์ ํ๊ณ๋ฅผ ๋ถ์ํ์ฌ ๋ ๋ฐฉ๋ฒ์ ์ฅ์ ์ ๊ฒฐํฉํ RPC๋ฅผ ์ ์

Background
- Test-time scaling: inference ์ ์ถ๊ฐ ๊ณ์ฐ์ ํฌ์
ํด reasoning ์ฑ๋ฅ์ ๋์ด๋ ์ ๊ทผ
- sampling-based: N๊ฐ์ reasoning path๋ฅผ ์์ฑํ๊ณ , confidence ์ถ์ ์ ํตํด Best-of-N ๋ฐฉ์์ผ๋ก ์ต์ ๋ต ์ ํ
- LLM sampling์ด ํ๋ฅ ์ ์ด๋ผ ๊ฐ์ ์ ๋ ฅ์ ๋งค๋ฒ ๋ค๋ฅธ ์ถ๋ ฅ์ด ๋์ด โ confidence estimation์ด ํต์ฌ
- ๊ธฐ์กด confidence estimation์ ๋ ๊ฐ์ง ๋ํ ๋ฐฉ๋ฒ
- Self-Consistency (SC): n๊ฐ์ path๋ฅผ ์ํ๋งํด majority vote๋ก confidence ์ถ์
- log probability ๋ถํ์ โ open/closed source ๋ชจ๋ ์ ์ฉ ๊ฐ๋ฅ
- answer ๋จ์๋ก equivalent path๋ฅผ aggregation โ model error ๋ฎ์
- ๋จ์ : error๊ฐ ์ํ ์์ ๋ฐ๋น๋กํด์๋ง ์ค์ด๋ฆ (linear convergence) โ ์ํ์ด ์ ์ผ๋ฉด ๋๋ฆผ
- Perplexity (PPL): LLM ๋ด๋ถ token probability๋ฅผ ๊ทธ๋๋ก confidence๋ก ์ฌ์ฉ
- log probability ํ์ โ open-source only
- ๊ฐ path๋ฅผ ๋ ๋ฆฝ์ ์ผ๋ก ํ๊ฐ โ model error ๋์
- error ์๋ ด์ exponential๋ก ๋น ๋ฅด์ง๋ง, probability๊ฐ 0์ ๊ฐ๊น์ด ์ด๋ ค์ด ๋ฌธ์ ์์ linear๋ก degrade
- Self-Consistency (SC): n๊ฐ์ path๋ฅผ ์ํ๋งํด majority vote๋ก confidence ์ถ์
- ๋ ๋ฐฉ๋ฒ ๋ชจ๋ ์ค์ ๋ก ์ ๋์ํ์ง๋ง, ์ ์ ๋๋์ง, ์ด๋ป๊ฒ ๊ฐ์ ํด์ผ ํ๋์ง์ ์ด๋ก ์ ๊ธฐ๋ฐ์ด ์์์
Problem States
- SC์ ๋ฌธ์ : error๊ฐ ์ํ ์์ ์ ํ์ผ๋ก๋ง ์ค์ด๋ฆ โ ์ํ budget์ด ์ ํ๋ ์ํฉ์์ ์ถฉ๋ถํ ์ฑ๋ฅ ๋ฌ์ฑ ์ด๋ ค์
- PPL์ ๋ฌธ์
- ๊ฐ์ ๋ต์ ๋ค๋ฅธ ํํ์ผ๋ก ์ด ๋ path๊ฐ ๋ค๋ฅธ score๋ฅผ ๋ฐ์ โ aggregation ๋ถ์ฌ๋ก model error ํผ
- probability๊ฐ ์์ ์ด๋ ค์ด ๋ฌธ์ ์ผ์๋ก exponential ์๋ ด ์ด์ ์ด ์ฌ๋ผ์ง๋ degeneration issue ์กด์ฌ
- Research Question: PPL์ ๋น ๋ฅธ ์๋ ด + SC์ ๋ฎ์ model error๋ฅผ ๋์์ ๋ฌ์ฑํ ์ ์๋๊ฐ?
Suggestions
์ด๋ก ์ ํ๋ ์์ํฌ: Reasoning Error Decomposition
- ํต์ฌ ์์ด๋์ด: reasoning error๋ฅผ ๋ ๋
๋ฆฝ์ ์ธ ํญ์ผ๋ก ๋ถํด
- Estimation Error: ์ถ์ ๋ confidence์ ์ค์ confidence ์ฌ์ด์ ์ฐจ์ด โ ์ํ ์์ estimation ์ ๋ต์ผ๋ก ์ ์ด ๊ฐ๋ฅ
- Model Error: ์ค์ confidence์ ์ ๋ต ์ฌ๋ถ ์ฌ์ด์ ์ฐจ์ด โ LLM ์์ฒด ๋ฅ๋ ฅ์ ์์กด, ์ํ ์์ ๋ฌด๊ด
- SC ๋ถ์ (Proposition 2)
- Estimation Error = Bernoulli ๋ถ์ฐ โ linear convergence: ์ํ์ ๋ ๋ฐฐ ์จ์ผ error๊ฐ ์ ๋ฐ
- Model Error = answer-level aggregation ๋๋ถ์ ๋ฎ๊ฒ ์ ์ง
- PPL ๋ถ์ (Proposition 3)
- Estimation Error = exponential convergence: ์ํ์ด ์กฐ๊ธ๋ง ๋์ด๋ error๊ฐ ๋น ๋ฅด๊ฒ ์ค์ด๋ฆ
- ๋จ, path probability๊ฐ 0์ ๊ฐ๊น์ธ์๋ก exponential ์ด์ ์ด ์ฌ๋ผ์ง๊ณ linear ์์ค์ผ๋ก degrade
- Model Error = path ๋จ์ ํ๊ฐ๋ก SC๋ณด๋ค ๋์ (์ด๋ก ์ ์ผ๋ก ์ฆ๋ช )
| Method | Estimation Error ์๋ ด | Model Error | ํต์ฌ ๋ฌธ์ |
|---|---|---|---|
| SC | Linear | ๋ฎ์ | ์ํ ์ ๋ง์ด ํ์ |
| PPL | Exponential (degrade ์์) | ๋์ | ์ด๋ ค์ด ๋ฌธ์ ์์ degrade |
| RPC | Exponential | ๋ฎ์ | โ |
Method: RPC (Reasoning-pruning Perplexity Consistency)
- RPC: ๋ ๊ฐ์ sequential component๋ก ๊ตฌ์ฑ๋ post-hoc confidence estimation ๋ฐฉ๋ฒ
Component 1: Perplexity Consistency (PC)
- ์์ด๋์ด: PPL์ฒ๋ผ ๋ด๋ถ ํ๋ฅ ์ ์ฐ๋, SC์ฒ๋ผ ๊ฐ์ ๋ต์ ๋ด๋ path๋ค์ ํ๋ฅ ์ ํฉ์ฐ
- ๊ฐ์ ๋ต
ลท๋ฅผ ์์ฑํ ๋ชจ๋ sampled path์ ํ๋ฅ ์ ๋ํด ํด๋น ๋ต์ confidence๋ก ์ฌ์ฉ Confidence(ลท) = ฮฃ p(tฬ|x)for all retained paths whereg(tฬ) = ลท
- ๊ฐ์ ๋ต
- ํจ๊ณผ (Theorem 4)
- Estimation Error: SC์ฒ๋ผ answer-level aggregation์ ์ ์งํ๋ฉด์๋ PPL์ฒ๋ผ exponential convergence ๋ฌ์ฑ
- Model Error: SC์ ๋์ผ ์์ค์ผ๋ก ๋ฎ๊ฒ ์ ์ง
- ๋จ, path probability๊ฐ ๊ทน๋๋ก ๋ฎ์ ๊ฒฝ์ฐ ์ฌ์ ํ degeneration ๋ฐ์ ๊ฐ๋ฅ โ RP๋ก ํด๊ฒฐ
Component 2: Reasoning Pruning (RP)
- ์์ด๋์ด: ๋ชจ๋ธ ์ค์ค๋ก near-zero probability๋ฅผ ๋ถ์ฌํ path๋ ์ ๋ต์ผ ๊ฐ๋ฅ์ฑ์ด ๋ฎ์ผ๋ฏ๋ก, PC ์คํ ์ ์ ๋ฏธ๋ฆฌ ์ ๊ฑฐ
- ์๋ threshold ๊ฒฐ์ : sampled path๋ค์ probability ๋ถํฌ๋ฅผ 2-component Weibull mixture๋ก ๋ชจ๋ธ๋ง
- ๋ถํฌ๋ฅผ high-probability ์์ญ๊ณผ low-probability ์์ญ์ผ๋ก ์๋ ๋ถ๋ฆฌ
P_High < 0.5์ด๋ฉด์ ์ ์ฒด mean๋ณด๋ค ๋ฎ์ probability๋ฅผ ๊ฐ์ง path๋ฅผ pruning- threshold๋ฅผ ์๋์ผ๋ก ์ค์ ํ ํ์ ์๋ hyperparameter-free ๋ฐฉ์
- ํจ๊ณผ (Theorem 7): optimal threshold ์ฌ์ฉ ์ ๋์ ํ๋ฅ ๋ก optimal error reduction ๋ฌ์ฑ ๋ณด์ฅ
- noise path ์ ๊ฑฐ โ PC์ degeneration ๋ฌธ์ ํด์
- incorrect path ์ค low-probability์ธ ๊ฒ๋ค์ด ์ ๊ฑฐ๋๋ฉด์ model error๋ ํจ๊ป ๊ฐ์
์ ์ฒด ์๊ณ ๋ฆฌ์ฆ
- Phase 1 (RP): Weibull mixture ํผํ โ low-probability path ์ ๊ฑฐ
- Phase 2 (PC): ๋จ์ path๋ค์ ๋ํด answer๋ณ ํ๋ฅ ํฉ์ฐ โ ๊ฐ์ฅ ๋์ confidence์ ๋ต ์ ํ
- ์ถ๊ฐ overhead: MathOdyssey 128-sample ๊ธฐ์ค SC 0.006s/q โ RPC 0.036s/q (LLM inference ๋๋น ๋ฌด์ ๊ฐ๋ฅ)
Effects
- Experimental Setup
- Models: InternLM2-Math-Plus 1.8B/7B, DeepSeekMath-RL 7B, DeepSeek-Coder 33B, DeepSeek-R1-Distill-Qwen-7B
- Datasets: MATH, MathOdyssey, OlympiadBench, AIME (์ํ 4์ข ), HumanEval, MBPP, APPS (์ฝ๋ 3์ข ), GPQA, LogiQA
- Baselines: PPL, SC, Verbalized Confidence (VERB)
- Metrics: Accuracy โ, ECE (Expected Calibration Error) โ, sampling budget โ
- ๊ฐ ์คํ 10 random seed๋ก ๋ฐ๋ณต, A800/H800 GPU
- Results
- RQ1 (Efficiency): Table 1 โ SC์ best ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ ๋ฐ ํ์ํ ์ต์ ์ํ ์ ๋น๊ต
- RPC๋ 4๊ฐ ์ํ benchmark ์ ์ฒด์์ SC ๋๋น 50~71% ์ํ ์ ๊ฐํ๋ฉด์ ๋๋ฑ ์ด์ ์ฑ๋ฅ ๋ฌ์ฑ
- MathOdyssey: 112๊ฐ โ 32๊ฐ (-71.4%)๋ก ๊ฐ์ฅ ํฐ ์ ๊ฐ ํญ
- PC๋ง์ผ๋ก๋ degeneration์ผ๋ก ์ผ๋ถ ์ ๊ฐ ์คํจ; RP ์ถ๊ฐ ์ ์ dataset์์ ์ผ๊ด๋ ๊ฐ์
- RQ2 (Efficacy): Figure 2 โ ์ํ ์์ ๋ฐ๋ฅธ accuracy ๋ณํ ๊ณก์
- ๋ชจ๋ ์ํ ์์ฐ ๊ตฌ๊ฐ์์ RPC > PC > SC > PPL ์์ ์ผ๊ด
- PPL์ model error ๋์ early plateau; RPC๋ ์ด๋ฅผ ํผํ๋ฉด์ accuracy ceiling๋ ๋์
- Table 2 (InternLM2-Math-Plus 7B) ํ๊ท : RPC 26.11% / SC 24.82%
- Table 3์์ 1.8B ๋ฐ DeepSeekMath-RL 7B์์๋ ๋์ผํ ๊ฒฝํฅ ํ์ธ
- RQ3 (Reliability): Table 2 โ Accuracy + ECE ๋์ ๋น๊ต
- PPL: ECE ํ๊ท 73.14 โ ์์ ํ miscalibrated
- VERB: accuracy๋, ECE๋ ๋ชจ๋ ์ตํ์
- SC: ECE 13.37๋ก reasonableํ์ง๋ง RPC์ ๋ฏธ์น์ง ๋ชปํจ
- RPC: accuracy 26.11% + ECE 12.37 โ accuracy, calibration ๋ชจ๋ ์ต๊ณ
- Figure 3 (reliability diagram): RPC์ predicted confidence๊ฐ ์ค์ accuracy์ ํจ์ฌ ์ ์ ๋ ฌ๋จ
- Additional Results
- Figure 4: ์ฝ๋ ์์ฑ 3์ข (HumanEval, MBPP, APPS)์์๋ ๋ชจ๋ baseline ์ํ
- R1 thinking model (DeepSeek-R1-Distill-Qwen-7B)์์๋ RPC ํจ๊ณผ ์ ์ง (Table 5)
- ESC, BoN+reward model ๋ฑ advanced baseline๊ณผ ๊ฒฐํฉํด๋ ์ผ๊ด๋ ์ฑ๋ฅ ํฅ์ (Tables 6, 7)
- ๋์ sampling temperature (1.1, 1.3)์์๋ RPC robust; SC๋ ๊ณ ์จ์์ estimation error ์ฆ๊ฐ๋ก ์ฑ๋ฅ ์ ํ
- RQ1 (Efficiency): Table 1 โ SC์ best ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ ๋ฐ ํ์ํ ์ต์ ์ํ ์ ๋น๊ต
Personal note. ์ด๋ก ์ ์ผ๋ก๋ ๋ฌด์์ด ๋ค๋ฅธ๊ฐ์ ๋ํ ๋ต์ ์ฒ์์ผ๋ก ์ ์ํ๋ค๋ ๊ฒ ์ด ๋ ผ๋ฌธ์ ํต์ฌ ๊ธฐ์ฌ๊ฐ๊ธฐ๋ ํ๋ฐ, ๊ฐ๋ น Estimation Error (์๋ ด ์๋) vs. Model Error (์ง๊ณ ๋ฐฉ์)๋ผ๋ ๋ ์ถ์ผ๋ก ์ ๋ฆฌ๋๋๊น ์กฐ๊ธ ํฌ๋ฏธํ๋ confidence estimation ์ฐ๊ตฌ์ ๋ํ ์ปจ์ ์ด ์ ๊ตฌ ๋ถ ๋ฐํ๋ ๊ธฐ๋ถ์ด ๋ค๊ธดํ์ต๋๋ค. ๋ค๋ง ๋ง์๋ ธ๋ค์ํผ ์ด๋ก ์ ๋ ผ์ฆ์ ์ ๋ฐํ ๊ฒ ์น๊ณ ๋ ์๋์ ์ผ๋ก ์ ์ ๋ฐฉ๋ฒ์ด ๋๋ ทํ ๋๋์ ๋ฐ์ง ๋ชปํ์ต๋๋ค.