Concise Reasoning via Reinforcement Learning
Meta info.
- Authors: Mehdi Fatemi, Banafsheh Rafiee, Mingjie Tang, Kartik Talamadupula
- Paper: https://arxiv.org/pdf/2504.05185
- Affiliation: Wand AI
- Published: April 7, 2025
TL; DR
RL๋ก ํ์ต๋ LLM์ด ๋ถํ์ํ๊ฒ ๊ธด ์ถ๋ก ์ ์์ฑํ์ง๋ง, 2-phrase RL๋ก ์ ํ๋๋ฅผ ์ ์งํ๋ฉด์ ๊ฐ๊ฒฐํ ์ถ๋ก ์ ์ํฌ ์ ์๋ค.















Background
์ต์ LRMs๋ค์ด ๊ธด CoT ์ถ๋ก ์ด ์ฑ๋ฅ ํฅ์์ ์ ์ํ๋ค๋ ์๊ด๊ด๊ณ ๋ณด๊ณ
- ์ผ๋ถ ์ฐ๊ตฌ์์๋ ์คํ๋ ค response๊ฐ ์ฅํฉํ ๊ฒฝ์ฐ dead-ends๋ฅผ ์ ๋ํ๊ฑฐ๋ ๋์ ๋ฐ๋ผ์๋ ๊ธธ์ด์ง์๋ก ์ฑ๋ฅ์ ํ๋ก ์ด์ด์ง๋ค๊ณ ์ง์
- dead-ends: LLM์ด ์์ฑ ์ค ๋ง๋ ๋ต์ผ๋ก ๋ณต๊ตฌํ ๊ฐ๋ฅ์ฑ์ด ๋ฎ์ ์ํ
Problem States
- longer CoT == better reasoning?
- ์ RLํ๋ฉด LLM์ด ์๋ต์ ๊ธธ๊ฒ ํ๋๊ฐ?
- ์ฑ๋ฅ ์ ํ ์์ด reasoning์ ์งง๊ฒ ํ ์ ์๋๊ฐ?
Suggestions
- PPO์ ๋ํ ์ํ์ ๋ถ์: ๊ธด ์๋ต์ด ์ RL Objective๋ก๋ถํฐ ๋ฐ์๋๋์ง ์ค๋ช
- ๊ธด ์๋ต์ด ๋ ๋์ ์ถ๋ก ์ ๊ณ ์ ํ ํน์ฑ์ด ์๋๋ค!
- ๊ฐ Reasoning์ MDP๋ก formalizeํ๊ณ ,
- reward๊ฐ sparseํ๊ณ delayed๋์ด(reward๋ t-1, ์ฆ ๋ง์ง๋ง ๋จ๊ณ์์๋ง ๋ฐ์) PPO์ ํ ํฐ๋น ์์ค ๊ณ์ฐํ ๊ฒฐ๊ณผย
pic 1
- ฮป < 1์์ PPO Loss๊ฐ
- reward<0 : ๋ณธ์ง์ ์ผ๋ก ๋ ๊ธด ์๋ต์ ์ ๋ํ๊ณ ,
- reward>0 : ๋ ์งง์ ์๋ต์ ์ ๋ํ๋ค๋ ๊ฒ์ ๋ถ์
- ๊ธด ์๋ต์ด ๋ ๋์ ์ถ๋ก ์ ๊ณ ์ ํ ํน์ฑ์ด ์๋๋ค!
- 2-phrase RL ์ ์
- ์ด๋ ค์ด ๋ฌธ์ ๋ก reasoning capability ํฅ์ย (๊ธด CoT ์ํค๊ณ ): base model์ด ์์ ๋ชปํธ๋ ๋ฌธ์ โ ๋๋ถ๋ถ negative reward โ PPO๊ฐ ๋ ๋ง์ token ์์ฑํ๋๋ก
- ํด๊ฒฐ ๊ฐ๋ฅํ ์์ค์ ๋ฌธ์ ๋ก ์งง์ ๋ต๋ณ ์์ฑ: base model์ด ๋ต์ ํ ํ๋ฅ p_a์ด ์์์๋ ๋ฌธ์ โ ๊ฐ๋ positive reward โ PPO ๊ฐ ์ ์ ์์ token์ ์์ฑํ๋๋ก ์ ๋ย
Fig 2
Effects
- ์ ํํ ๋ต์ ์งง๋คย
Tab 1ย : ์ ๋ต์ด ์ค๋ต๋ณด๋ค ์งง๋ค๊ณ- backbone์ R1, Qwen, Phi-4, โฆ์ ๋ํด MATH500, AIMEโ24, MMLU-STEM ๋ฑ์ผ๋ก ํ์ธ
- 2-phrase RL
- 2๋จ๊ณ์์ ์๋ต ๊ธธ์ด๊ฐ ๊ธ๊ฒฉํ ๊ฐ์ย
Fig 3- R1-1.5B ์ถ๋ ฅ ๊ธธ์ด๊ฐ ํ๊ท 6848ํ ํฐ์์ 3119ํ ํฐ์ผ๋ก ๊ฐ์ํ์ง๋ง ์ ํ๋ ์ ์งย
Tab 2
- R1-1.5B ์ถ๋ ฅ ๊ธธ์ด๊ฐ ํ๊ท 6848ํ ํฐ์์ 3119ํ ํฐ์ผ๋ก ๊ฐ์ํ์ง๋ง ์ ํ๋ ์ ์งย
- 2๋จ๊ณ RL ํ์๋ greedy decoding (temp. = 0)์์๋ ์ฑ๋ฅ ์ ์ง๋์ด ๊ฐ๊ฑด์ฑ์ ๋ํด ์
์ฆย
Tab 3- R1-1.5B temp. = 0์์ MATH500 ์ ํ๋๊ฐ 70%์์ 81%๋ก ํฅ์๋๊ธฐ๋
- 2๋จ๊ณ์์ ์๋ต ๊ธธ์ด๊ฐ ๊ธ๊ฒฉํ ๊ฐ์ย
- ฮป < 1ย : PPO Objective๊ฐ ์งง์ ์๋ต์ ์ ํธํ๊ฒ ํ๋ ํต์ฌ์ผ๋ก,
- ฮป = 1์์๋ PPO๊ฐ ๋ถ์์ ํด์ง๊ณ value estimates๊ฐ ๋ฌ๋ผ์ ธ์ over-/under-flowย
Fig 5, 6
- ฮป = 1์์๋ PPO๊ฐ ๋ถ์์ ํด์ง๊ณ value estimates๊ฐ ๋ฌ๋ผ์ ธ์ over-/under-flowย
- 8๊ฐ ๋ฌธ์ ๋ง์ผ๋ก RL post-training: R1 ๋ชจ๋ธ ์๋ต ๊ธธ์ด๋ฅผ ์ ๋ฐ ์ดํ๋ก ์ค์ด๊ณ ์ ํ๋๋ ์ ์ง
- Qwen์ ๊ฒฝ์ฐย 4๊ฐ๋ง์ผ๋ก๋ 30% ์ฑ๋ฅ ํฅ์
Personal note. ์์ง ฮป์ ๋ํ ์ต์ ๊ฐ์ ๋ํ ๋ถ์์ด ๋ ํ์ํ๋ค๊ฑฐ๋ GRPO ๋ฑ์ผ๋ก ํ์ฅ๋์ง ๋ชปํ๋ ์ ์ ์ ์๋ค๋ ์ง์ ํ ํ๊ณ์ ๋๋ค๋ง, PPO ์์ฒด์ ๋ฌธ์ ๋ฅผ ๋ถ์ํ ์ ์ด ์ธ์์ ์ด๊ณ , RL post-traing์ ์ง์ง 8๊ฐ ํน์ 4๊ฐ๋ง ์ผ๋ค๋๊ฒ ๋๋ผ์ด ๊ฒฐ๊ณผ๋ค์. ๊ธด ๋ต๋ณ์ด ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค๋ ํจ๋ฌ๋ค์์ ์ ํํ ์ ์๋ ์ด๊ธฐ ์ฐ๊ตฌ๊ฐ ๋ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค. ์ผ์ข ์ curriculum RL์ด ์ผ๋ฐํ๋ ์ ์์ ๊ฒ์ผ๋ก๋ ๋ณด์ฌ์.