Concise Reasoning via Reinforcement Learning

April 14, 2025 1 minute read

Meta info.

Authors: Mehdi Fatemi, Banafsheh Rafiee, Mingjie Tang, Kartik Talamadupula
Paper: https://arxiv.org/pdf/2504.05185
Affiliation: Wand AI
Published: April 7, 2025

TL; DR

RL로 학습된 LLM이 불필요하게 긴 추론을 생성하지만, 2-phrase RL로 정확도를 유지하면서 간결한 추론을 시킬 수 있다.

Background

Problem States

longer CoT == better reasoning?
왜 RL하면 LLM이 응답을 길게 하는가?
성능 저하 없이 reasoning을 짧게 할 수 있는가?

Suggestions

PPO에 대한 수학적 분석: 긴 응답이 왜 RL Objective로부터 발생되는지 설명
- 긴 응답이 더 나은 추론의 고유한 특성이 아니다!
  - 각 Reasoning을 MDP로 formalize하고,
  - reward가 sparse하고 delayed되어(reward는 t-1, 즉 마지막 단계에서만 발생) PPO의 토큰당 손실 계산한 결과 pic 1
- λ < 1에서 PPO Loss가
  - reward<0 : 본질적으로 더 긴 응답을 유도하고,
  - reward>0 : 더 짧은 응답을 유도한다는 것을 분석
2-phrase RL 제안
1. 어려운 문제로 reasoning capability 향상 (긴 CoT 시키고): base model이 아예 못푸는 문제 → 대부분 negative reward → PPO가 더 많은 token 생성하도록
2. 해결 가능한 수준의 문제로 짧은 답변 생성: base model이 답을 풀 확률p_a이 양수였던 문제 → 가끔 positive reward → PPO 가 적은 수의 token을 생성하도록 유도 Fig 2

Effects

정확한 답은 짧다 Tab 1 : 정답이 오답보다 짧다고
- backbone에 R1, Qwen, Phi-4, …에 대해 MATH500, AIME’24, MMLU-STEM 등으로 확인
2-phrase RL
- 2단계에서 응답 길이가 급격히 감소 Fig 3
  - R1-1.5B 출력 길이가 평균 6848토큰에서 3119토큰으로 감소했지만 정확도 유지 Tab 2
- 2단계 RL 후에는 greedy decoding (temp. = 0)에서도 성능 유지되어 강건성에 대해 입증 Tab 3
  - R1-1.5B temp. = 0에서 MATH500 정확도가 70%에서 81%로 향상되기도
λ < 1 : PPO Objective가 짧은 응답을 선호하게 하는 핵심으로,
- λ = 1에서는 PPO가 불안정해지고 value estimates가 달라져서 over-/under-flow Fig 5, 6
8개 문제만으로 RL post-training: R1 모델 응답 길이를 절반 이하로 줄이고 정확도는 유지
- Qwen의 경우 4개만으로도 30% 성능 향상

Personal note. 아직 λ에 대한 최적값에 대한 분석이 더 필요하다거나 GRPO 등으로 확장되지 못하는 점은 저자들도 지적한 한계입니다만, PPO 자체의 문제를 분석한 점이 인상적이고, RL post-traing에 진짜 8개 혹은 4개만 썼다는게 놀라운 결과네요. 긴 답변이 더 좋은 성능을 보인다는 패러다임을 전환할 수 있는 초기 연구가 될 것으로 기대됩니다. 일종의 curriculum RL이 일반화될 수 있을 것으로도 보여요.

TL; DR

Background

최신 LRMs들이 긴 CoT 추론이 성능 향상에 유의하다는 상관관계 보고

Problem States

Suggestions

Effects