Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs
Meta info.
- Authors: Yue Wang, Qiuzhi Liu, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Linfeng Song, Dian Yu, Juntao Li, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu
- Paper: https://arxiv.org/pdf/2501.18585
- Affiliation: Shanghai Jiao Tong Univ., Soochow Univ., Tencent AI
- Published: January 30, 2025
TL; DR
o1-like LLMs์ด ์ด๋ ค์ด ๋ฌธ์ ๋ฅผ ํ ๋ ๋ถํ์ํ๊ฒ ์ฌ๊ณ ํ๋ฆ์ ์์ฃผ ๋ณ๊ฒฝํ๋ Underthinking ํ์ ๋ถ์







Background
์ต์ ์ย o1-like LLMs(OpenAI o1, Qwen, DeepSeek-R1, โฆ)์ test-time compute๋ฅผ ํ์ฅํ์ฌ ๋ณต์กํ reasoning ๋ฌธ์ ํด๊ฒฐ์ ํ ์ ์๋ ์ฌ๊ณ (Thought)์ ๋ํด ์ค๊ณ๋จ.
Problem States
๊ทธ๋ ๋ค๊ณ ๊ทธ๊ฒ Deep-thinking ์ํค๋ ๊ฑด ์๋
- ์ถฉ๋ถํ ์๊ฐํ์ง ์๊ณ ๋น๋ฒํ๊ฒ ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก ์ฌ๊ณ ํ๋ฆ์ ์ ํํ๋ ๋ฌธ์ =underthinking์ ๋ํ ํด๊ฒฐ ํ์
Suggestions
Underthinkingย ํ์ ๋ถ์- ๋ชจ๋ธ์ด ์ด๋ ค์ด ๋ฌธ์ ์์ ์ฌ๊ณ ์ ๋ต์ ์๊พธ ๋ฐ๊พธ์ง๋ง, ๊ทธ ๊ณผ์ ์์ ์ถฉ๋ถํ ํ์ํ์ง๋ ์์. (figure 2)
- ์ค๋ต ์์ฑ์์ Thought switching์ด ๋ ์์ฃผ ๋ฐ์ โย ํ ํฐ ์ฌ์ฉ๋ ์ฆ๊ฐ๋ก ์ฐ๊ฒฐ (figrue 1)
- ์ ๋๋ก ๋ thought ๋ฐฉ์์ ํํ๋๋ผ๋ย ์์ ํ ํด๊ฒฐํ๊ธฐ ์ ์ ์ค๋จํ๊ณ ์๋ก์ด ๋ฐฉ์์ ์๋ํจ โ ๋ชจ๋ธ์ด ์ค๋ต ์ถ๋ ฅ
UT Scoreย ์ ์- ์ค๋ต์์ ์ ๋ต ๋์ถ์ ๊ธฐ์ฌํ๋ ์ต์ด์ ์ฌ๋ฐ๋ฅธ thought path๊ฐ ๋ํ๋๋ ์ง์ ์ ๊ธฐ์ค์ผ๋ก ์ดํ์ ํ ํฐ์ด ๋นํจ์จ์ ์ผ๋ก ์ฌ์ฉ๋ ์ ๋
- ๊ฐ์ด ํด์๋ก underthinking๋จ
- Thought Switching Penalty (TIP) ๋์
- ๋์ฝ๋ฉ ๊ณผ์ ์์ ์ฌ๊ณ ์ ํ์ ์ต์ ํ๋๋ก ํจ๋ํฐ ๋ถ์ฌ.
- ๋์ฝ๋ฉ ๊ณผ์ ์์ ์ฌ๊ณ ํ๋ฆ์ ๋ฐ๊พธ๋ ํค์๋(โalternativelyโ,ย โanother way to approach this isโฆโ)์ ์ถํ ํ๋ฅ ์ ๋ฎ์ถค
- ํน์ ์๊ฐ ๋์(ฮฒ) ์ฌ๊ณ ์ ํ์ ํ์ง ์๋๋ก ํจ๋ํฐ ๋ถ์ฌ
- ๋์ฝ๋ฉ ๊ณผ์ ์์ ์ฌ๊ณ ์ ํ์ ์ต์ ํ๋๋ก ํจ๋ํฐ ๋ถ์ฌ.
Effects
- Experiments Set-up
- target task: MATH500-Hard (๋ํ์์ค ์ํ๋ฌธ์ ), GPQA Diamond (๋ฌผ๋ฆฌ, ํํ, ์๋ฌผํ ๋ค์ง์ ๋ค ๋ฌธ์ ), AIME (๊ณ ๋๋ ์ํ ๊ฒฝ์๋ํ ๋ฌธ์ )
- model
- o1-like models: QwQ-32B-Preview, DeepSeek-R1-671B
- general models: Qwen-Math-72B, Llama3.3-70B
- Results
- ์ฌ๊ณ ์ ํ์ด ๊ธ๊ฒฉํ ์ฆ๊ฐํ๋ฉด ์ค๋ต ์์ฑ (์ ํ๋ ํ๋ฝ, figure 4)
- ๋ฌธ์ ์ ๋์ด๋๊ฐ ์ฆ๊ฐํ ์๋ก ์ฌ๊ณ ํ๋ฆ์ ๋ฐ๊พธ๋ ๋น๋๊ฐ ์ฆ๊ฐ: ๋ชจ๋ธ์ด ์ค๋ต ์์ฑ์ ์ฌ์ค์ ์ ๋ต ๋์ถ ๊ฐ๋ฅ์ฑ์ด ์๋ thought ์ ๋ต์ ์ค๋ ํฌ๊ธฐํจ. ์ฆ, ์๋ต ์ด๊ธฐ์๋ ์ฌ๋ฐ๋ฅธ thought์์ผ๋, ์์ ํ ํด๊ฒฐํ๊ธฐ ์ ์ ์๋ก์ด ๋ฐฉ๋ฒ์ผ๋ก ์ ํ๋จ. (figure 5)
- ๋ชจ๋ o1-like LLMs๊ฐ Underthinking ๋ฌธ์ , ํนํ ์ด๋ ค์ด, ์ค๋ต์ด ๋ง์ ๋ฌธ์ (AIME 2024)์์ UT Score๊ฐ ๋งค์ฐ ๋์ (table 1)
- TIP ์ ์ฉ ํ ์ ํ๋ MATH500-Hard +1.5%, GPQA Diamond +2.2%, AIME 2024 +4.1% ์ฆ๊ฐ (table3)
- Future Work
- ๋ชจ๋ธ์ด ์ค์ค๋ก ์ฌ๊ณ ํ๋ฆ์ ์กฐ์ ํ ์ ์๋๋ก ํ๋ thought
- ๋ ผ๋ฆฌ ํผ์ฆ, ๋ฌผ๋ฆฌํ QA ๋ฑ์์ ํจ๊ณผ ๊ฒ์ฆ
Personal note. o1 ๋ชจ๋ธ์ด ๋ชปํ๋ ๊ฑฐ ๋ถ์ํ๊ณ ํด๊ฒฐํ๋ ๋ ผ๋ฌธ ๋ง์ด ๋์ค๋๋ฐ ๋๋ฌด๋นจ๋ผ์ ์ฒด๊ฐ์ด ์ ์๋๋ค์,,,ย ๐ขย ์์๋ก ๋ณด์ฌ์ฃผ๋ ๋ฌธ์ ๋ค๋ ๋๋ ๊ฐ์ด ๊น์ ํด์ผ๋ง ํ ์ ์๋ (ํด๋ ๋ชปํธ๋) ๋ฌธ์ ๊ฐ ๋์ด๋๋์ค,,