TTRL: Test-Time Reinforcement Learning

April 29, 2025 1 minute read

Meta info.

Authors: Yuxin Zuo, Kaiyan Zhang, Shang Qu, Li Sheng, Xuekai Zhu, Biqing Qi, Youbang Sun, Ganqu Cui, Ning Ding, Bowen Zhou
Paper: https://www.arxiv.org/pdf/2504.16084
Affiliation: Shanghai AI Lab, Tsinghua Univ.
Published: April 22, 2025
Code: https://github.com/PRIME-RL/TTRL

TL; DR

test 데이터만으로 majority-voting으로 reward 추정, 이를 통해 RL 시도하는 제안 TTRL이 reasoning 성능을 x2~x3까지 끌어올릴 수 있다

Background

Test-time scaling의 성능 개선 보고

test-time scaling: 사전학습 컴퓨팅 늘리지 않고도 인퍼런스 타임에 모델 성능 개선

Problem States

ground-truth 없이 test-time에 강화학습시킬수 있을까?

기존 연구에서 reasoning을 위한 RL에서 CoT 하긴 해도 어쨌든 정답 label이 필요
Test-time training이 있기는 했지만 RL의 비지도학습은 아닌

Suggestions

Test-Time Reinforcement Learning

다회 rollouts (보통 64) → majority voting으로 pseudo-label 추정
Reward: majority voting과 일치하면 1 아니면 0
training efficiency를 위해 학습에서는 그중에 16개만으로 downsampling..
key concept: RL “bootstraps” on majority-voted labels, allowing unsupervised continual learning

Effects

target tasks: AIME 2024, AMC, MATH-500
results: ground-truth label 없는데도 일반 RL 성능 크게 상회 Tab 1
- 제안 방법이 initial policy의 Majority voting의 상한을 상회 Fig 6
- out-of-domain 에서도 강건한 성능 Fig 3
  - 정답 외우거나 Over optimization 되는게 아니라, 진자 Reasoning을 배웠다고 주장
- 제안 방법은 test data 정답 알고 (신이내린 reward모델이라 정답을 알고있는) RL 한 것(upperbound)에 근사하는 수준의 성능 보고 Fig 7
discussions
- 왜 정답 없이도 잘할까 : 원래 RL에 필요한건 정답이라기보다는 좋은 방향성(signal)이니까, 대체로 맞는 보상만 있으면 학습 가능 → 그걸 Majority voting이 수행
  - Majority voting이 진짜 안녕한가: 경향상 모델이 자신있는 답을 한 결과를 선택하는 것과 같음. 오답이더라도 덜 틀린것에 voting되는 경향. 생각보다 강건한 pseudo-label 제공
  - reward sparsity를 해결할 수도: supervised learning에서는 틀리면 다 0이지만, pseudo label은 틀린 것들 사이에서도 층위를 만들어낼 여지가 있음
- 왜 Fig 7 에서 학습 초반에는 TTRL이 더 느리게 성능이 오를까
  - leakage된 경우는 어차피 정답을 아니까 탐색할 필요가 없는데 반해 TTRL은 초반부터 trial-and-error필요 → 더 빠르게 학습시키는 요인
  - 결국 따라잡는 걸 보면, self-improvement loop를 통해 pseudo-label이 좋아지기 떄문으로 분석 가능

Personal note. 64번의 rollouts가 많게 느껴질 수는 있는데 reward modeling 하는거 생각해보면 실질적으로 효율이 크다는 생각이 들고, 오히려 부정확한 pseudo-label 덕분에 강건한 exploration을 유도하기 때문에 좋다는 결론까지 용두사미가 아니라 용두용미가 되네요… 다수결이 이렇게나 강건하게 좋다고…