LIMO - Less is More for Reasoning
Meta info.
- Authors: Yixin Ye, Zhen Huang, Yang Xiao, Ethan Chern, Shijie Xia, Pengfei Liu
- Paper: https://arxiv.org/pdf/2502.03387
- Affiliation: GAIR
- Published: February 5, 2025
- Code: https://github.com/GAIR-NLP/LIMO
TL; DR
์์ง๋ง ์ข์ ๋ฐ์ดํฐ๋ง์ผ๋ก ์๋ฆฌ์ถ๋ก ๋ฅ๋ ฅ ํฅ์์ํค๊ธฐ = ๋ชจ๋ธ์ด ์ด๋ฏธ ์๊ณ ์๋ ๊ฑธ ์ ๋์ง์ด๋ด๋ ๊ฒ์ด ์ค์ํ๋ค.






Background
๊ณ ๊ธ ์๋ฆฌ์ถ๋ก ์ ์ํด์๋ ์ฝ ์์ญ๋ง ์์ ๊ฐ ํ์ํ๋ค๋ ํต๋ + RL or scaling ์์ฃผ
Problem States
๋๊ท๋ชจ ๋ฐ์ดํฐ ์์ด LLM์ ๋ณต์กํ ์๋ฆฌ ์ถ๋ก ๋ฅ๋ ฅ์ ํฅ์์ํฌ ์ ์์๊น?
- SFT๊ฐ ๋จ์ ์๊ธฐ๋ฅผ ํ๋๊ฑธ๊น?
- ์ง๋ย LIMA (Zhou et al. 2024)ย ์ฒ๋ผ ์๋์ ์ผ๋ก ์์ง๋ง ํ์ง ์ข์ ๋ฐ์ดํฐ๋ฅผ ํตํด alignment๊ฐ ๊ฐ๋ฅํ๋ค๋ ์ฐ๊ตฌ์ ์๋ฆฌ์ถ๋ก ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ๋ํ ์ฐ๊ตฌ ๋ฏธ๋นย
Tab1
Suggestions
Less-Is-More Reasoning Hypothesisa
- ๊ฐ์ค: LLM์ด ์ถฉ๋ถํ ์ฌ์ ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง๊ณ ์๋ค๋ฉด, ์๋์ ๊ณ ํ์ง ์์ ๋ง์ผ๋ก๋ ๊ณ ์ฐจ์ ์ถ๋ก ๋ฅ๋ ฅ์ ํ์ฑํํ ์ ์๋ค.
- ๋ชจ๋ธ์ด ์ฌ์ ํ๋ จ ๊ณผ์ ์์ ์ถฉ๋ถํ ๋๋ฉ์ธ ์ง์์ ๋ด์ฌํ๊ณ ์์ด์ผ ํ๋ค.
- ์ ์ ์์ด๋๋ผ๋ ์ต์ ์ ์์ ๋ฅผ ์ถ๋ ค์ฃผ๋ฉด ์ถ๋ก ๋ฅ๋ ฅ์ ํจ๊ณผ์ ์ผ๋ก ํฅ์ํ ์ ์๋ค.
- L5 (good) ~ L1 (poor): ํ์ง์ ์ธ๊ฐ ์ ๋ฌธ๊ฐ๊ฐ ๋ณด๊ณ llm ๊ธฐ๋ฐ ํํฐ๋ง ์ํ
- LIMO setup
- backbone: Qwen2.5-32B-Instruct
- SFT datasets: 817๊ฐ์ ๊ณ ํ์ง ์ํ ๋ฌธ์ ๋ฐ์ดํฐ์ ์ถ๋ฆฌ๊ธฐ
Effects
- Experiment setup
- Task: AIME24, MATH500, OlympiadBench, GPQA, โฆ..
- ๋น๊ต ๋ชจ๋ธ: OpenAI-o1-preview, QwQ-32B-Preview, NuminaMath (100K ์ํ), OpenThoughts (114K ์ํ)
- results: LIMO ๋ชจ๋ธ์ด ๊ธฐ์กด SFT ๋ชจ๋ธ๋ณด๋ค ์ข์ ์ฑ๋ฅ ๋ฌ์ฑ
- ๋จ 817๊ฐ๋ง ์ผ๋๋ฐ ๋๊ท๋ชจ ๋ฐ์ดํฐ์
(100K+)๋ก ํ์ตํ ๋ชจ๋ธ๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅย
Tab3 - RQ1 reasoning chain quality (ํ์ด ํ์ง):์ข์ ํ์ง์ ํ์ด ๊ณผ์ ์ ๋ฐฐ์ธ์๋ก ์ฑ๋ฅ ํฅ์ ํ์ธย
Fig2- L5 (์ต๊ณ ํ์ง) ๋ฐ์ดํฐ์ ์ผ๋ก ํ์ตํ ๋ชจ๋ธ์ด L1(์ต์ ํ์ง) ํ์ตํ ๊ฒ ๋๋น AIME์์ 15%p, MATH500์์ 12%p๊น์ง ๋์ ์ฑ๋ฅ
- RQ2 question quality (๋ฌธ์ ํ์ง): ์ฌ์ด๋ฌธ์ ๋ณด๋ค ์ด๋ ค์ด ๋ฌธ์ ๋ฐฐ์ธ ๋ ๋ชจ๋ธ ์ผ๋ฐํ ์ฑ๋ฅ ํฅ์ย
Fig3- AIME24์์ simple500 ํ์ต์ 35%, advanced500 ํ์ต์ 51.5% ๋ฌ์ฑ
- RQ3 LLM backbone (PTM): backbone์ด ์ข์์๋ก ์ฑ๋ฅ ํฅ์ย
Fig4- AIME24์์ Qwen2.5-32B-Instruct > Qwen1.5-32B-Chat ๋๋น 47.1%p ํฅ์
- CASE STUDYย
Fig5ย : LIMOํ๋ฉด self-reflection ํ๊ธฐ๋ ํ๋ค๊ณ๋น์ฐํ ๊ทธ๋ฐ ๋ฐ์ดํฐ๋ฅผ ๋จ๊ฒจ์ ํ์ต์์ผฐ์ผ๋..ย (Wait, let me check again, โฆ)
- ๋จ 817๊ฐ๋ง ์ผ๋๋ฐ ๋๊ท๋ชจ ๋ฐ์ดํฐ์
(100K+)๋ก ํ์ตํ ๋ชจ๋ธ๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅย
Personal note. meta์์ ๋์๋ LIMA์ ์ฃผ์ฅ์ ๋ท๋ฐ์นจํ๋ ํ์ ๋ ผ๋ฌธ๋ค์ด ๊ณ์ ๋์ค๊ณ ์๋๋ฐ, ์์๋ ํญ์ ๋น์ทํ๊ฒ ๋ฐ์ดํฐ ํ์ง์ ๋ํ ๊ฐ์กฐ๋ก ์๋ ดํ๋ ๊ฒ ๊ฐ์ต๋๋ค. AI-gen ๋ฐ์ดํฐ๊ฐ ๊ฒฐ๊ตญ garbage in garbage outํ๊ฒ ๋๋ค๋ ์ ์ ๊ฒฝ๊ณ๋์ด์ผ ํ ๊ฒ ๊ฐ๊ธด ํ๋ฐ, ๋ฌธ์ ๋ผ๋ฉด ์์ง์ ๊ณ ํ์ง ๋ฐ์ดํฐ๋ฅผ ๋ง๋๋ ๋ฐ ํน์ ๊ฑฐ๋ฅด๋ ๋ฐ์ ๋น์ฉ์ด ์์ง ์๋ค๋ ์ ๊ฐ์ต๋๋ค.