TTRL: Test-Time Reinforcement Learning
Meta info.
- Authors: Yuxin Zuo, Kaiyan Zhang, Shang Qu, Li Sheng, Xuekai Zhu, Biqing Qi, Youbang Sun, Ganqu Cui, Ning Ding, Bowen Zhou
- Paper: https://www.arxiv.org/pdf/2504.16084
- Affiliation: Shanghai AI Lab, Tsinghua Univ.
- Published: April 22, 2025
- Code: https://github.com/PRIME-RL/TTRL
TL; DR
test ๋ฐ์ดํฐ๋ง์ผ๋ก majority-voting์ผ๋ก reward ์ถ์ , ์ด๋ฅผ ํตํด RL ์๋ํ๋ ์ ์ TTRL์ดย reasoning ์ฑ๋ฅ์ x2~x3๊น์ง ๋์ด์ฌ๋ฆด ์ ์๋ค









Background
Test-time scaling์ ์ฑ๋ฅ ๊ฐ์ ๋ณด๊ณ
- test-time scaling: ์ฌ์ ํ์ต ์ปดํจํ ๋๋ฆฌ์ง ์๊ณ ๋ ์ธํผ๋ฐ์ค ํ์์ ๋ชจ๋ธ ์ฑ๋ฅ ๊ฐ์
Problem States
ground-truth ์์ด test-time์ ๊ฐํํ์ต์ํฌ์ ์์๊น?
- ๊ธฐ์กด ์ฐ๊ตฌ์์ reasoning์ ์ํ RL์์ CoT ํ๊ธด ํด๋ ์ด์จ๋ ์ ๋ต label์ด ํ์
- Test-time training์ด ์๊ธฐ๋ ํ์ง๋ง RL์ ๋น์ง๋ํ์ต์ ์๋
Suggestions
Test-Time Reinforcement Learning
- ๋คํ rollouts (๋ณดํต 64) โ majority voting์ผ๋ก pseudo-label ์ถ์
- Reward: majority voting๊ณผ ์ผ์นํ๋ฉด 1 ์๋๋ฉด 0
- training efficiency๋ฅผ ์ํด ํ์ต์์๋ ๊ทธ์ค์ 16๊ฐ๋ง์ผ๋ก downsampling..
- key concept: RL โbootstrapsโ on majority-voted labels, allowingย unsupervised continual learning
Effects
- target tasks: AIME 2024, AMC, MATH-500
- results: ground-truth label ์๋๋ฐ๋ ์ผ๋ฐ RL ์ฑ๋ฅ ํฌ๊ฒ ์ํย
Tab 1- ์ ์ ๋ฐฉ๋ฒ์ด initial policy์ Majority voting์ ์ํ์ ์ํย
Fig 6 - out-of-domain ์์๋ ๊ฐ๊ฑดํ ์ฑ๋ฅย
Fig 3- ์ ๋ต ์ธ์ฐ๊ฑฐ๋ Over optimization ๋๋๊ฒ ์๋๋ผ, ์ง์ Reasoning์ ๋ฐฐ์ ๋ค๊ณ ์ฃผ์ฅ
- ์ ์ ๋ฐฉ๋ฒ์ test data ์ ๋ต ์๊ณ (์ ์ด๋ด๋ฆฐ reward๋ชจ๋ธ์ด๋ผ ์ ๋ต์ ์๊ณ ์๋) RL ํ ๊ฒ(upperbound)์ ๊ทผ์ฌํ๋ ์์ค์ ์ฑ๋ฅ ๋ณด๊ณ ย
Fig 7
- ์ ์ ๋ฐฉ๋ฒ์ด initial policy์ Majority voting์ ์ํ์ ์ํย
- discussions
- ์ ์ ๋ต ์์ด๋ ์ํ ๊น : ์๋ RL์ ํ์ํ๊ฑด ์ ๋ต์ด๋ผ๊ธฐ๋ณด๋ค๋ ์ข์ ๋ฐฉํฅ์ฑ(signal)์ด๋๊น, ๋์ฒด๋ก ๋ง๋ ๋ณด์๋ง ์์ผ๋ฉด ํ์ต ๊ฐ๋ฅ โ ๊ทธ๊ฑธ Majority voting์ด ์ํ
- Majority voting์ด ์ง์ง ์๋ ํ๊ฐ: ๊ฒฝํฅ์ ๋ชจ๋ธ์ด ์์ ์๋ ๋ต์ ํ ๊ฒฐ๊ณผ๋ฅผ ์ ํํ๋ ๊ฒ๊ณผ ๊ฐ์. ์ค๋ต์ด๋๋ผ๋ ๋ ํ๋ฆฐ๊ฒ์ voting๋๋ ๊ฒฝํฅ. ์๊ฐ๋ณด๋ค ๊ฐ๊ฑดํ pseudo-label ์ ๊ณต
- reward sparsity๋ฅผ ํด๊ฒฐํ ์๋: supervised learning์์๋ ํ๋ฆฌ๋ฉด ๋ค 0์ด์ง๋ง, pseudo label์ ํ๋ฆฐ ๊ฒ๋ค ์ฌ์ด์์๋ ์ธต์๋ฅผ ๋ง๋ค์ด๋ผ ์ฌ์ง๊ฐ ์์
- ์ย
Fig 7ย ์์ ํ์ต ์ด๋ฐ์๋ TTRL์ด ๋ ๋๋ฆฌ๊ฒ ์ฑ๋ฅ์ด ์ค๋ฅผ๊น- leakage๋ ๊ฒฝ์ฐ๋ ์ด์ฐจํผ ์ ๋ต์ ์๋๊น ํ์ํ ํ์๊ฐ ์๋๋ฐ ๋ฐํด TTRL์ ์ด๋ฐ๋ถํฐ trial-and-errorํ์ โ ๋ ๋น ๋ฅด๊ฒ ํ์ต์ํค๋ ์์ธ
- ๊ฒฐ๊ตญ ๋ฐ๋ผ์ก๋ ๊ฑธ ๋ณด๋ฉด, self-improvement loop๋ฅผ ํตํด pseudo-label์ด ์ข์์ง๊ธฐ ๋๋ฌธ์ผ๋ก ๋ถ์ ๊ฐ๋ฅ
- ์ ์ ๋ต ์์ด๋ ์ํ ๊น : ์๋ RL์ ํ์ํ๊ฑด ์ ๋ต์ด๋ผ๊ธฐ๋ณด๋ค๋ ์ข์ ๋ฐฉํฅ์ฑ(signal)์ด๋๊น, ๋์ฒด๋ก ๋ง๋ ๋ณด์๋ง ์์ผ๋ฉด ํ์ต ๊ฐ๋ฅ โ ๊ทธ๊ฑธ Majority voting์ด ์ํ
Personal note. 64๋ฒ์ rollouts๊ฐ ๋ง๊ฒ ๋๊ปด์ง ์๋ ์๋๋ฐ reward modeling ํ๋๊ฑฐ ์๊ฐํด๋ณด๋ฉด ์ค์ง์ ์ผ๋ก ํจ์จ์ด ํฌ๋ค๋ ์๊ฐ์ด ๋ค๊ณ , ์คํ๋ ค ๋ถ์ ํํ pseudo-label ๋๋ถ์ ๊ฐ๊ฑดํ exploration์ ์ ๋ํ๊ธฐ ๋๋ฌธ์ ์ข๋ค๋ ๊ฒฐ๋ก ๊น์ง ์ฉ๋์ฌ๋ฏธ๊ฐ ์๋๋ผ ์ฉ๋์ฉ๋ฏธ๊ฐ ๋๋ค์โฆ ๋ค์๊ฒฐ์ด ์ด๋ ๊ฒ๋ ๊ฐ๊ฑดํ๊ฒ ์ข๋ค๊ณ โฆ