The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity
- Authors: Parshin Shojaee, Iman Mirzadeh, Keivan Alizadeh, Maxwell Horton, Samy Bengio, Mehrdad Farajtabar
- Paper: https://machinelearning.apple.com/research/illusion-of-thinking
- Affiliation: Apple Inc.
- Published: June 1, 2025
TL; DR
LRM์ด thinkํ๋ ๊ฒ์ฒ๋ผ ๋ณด์ฌ๋, ๋ณต์ก๋๊ฐ ๋์ผ๋ฉด ์คํจํ๊ฑฐ๋ ์ถ๋ก ๋ ๋นํจ์จ์ ์ผ๋ก(=๋) ํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์, ์ง์ ํ ์ผ๋ฐํ ์ถ๋ก ์ฑ๋ฅ์ ๋ถ์กฑํ๋ค.

Background
- LLM์ reasoning-intensive task๋ฐ์ ์ CoT์ self-verification์ด ์ฃผ์ ๊ธฐ์
- DeekSeek-R1์ด๋ ์ฌํ reasoning ์ํ๋ค๋ ๋ชจ๋ธ๋ค์ ๋์ฒด๋ก MATH500/AIME ๋ฑ ์ํ ๋ฒค์น๋งํฌ๋ก ํ๊ฐ๋ ๊ฒ์ด ์ผ๋ฐ์
- data contamination์ ๋ํ ๊ณ ๋ ค ๋ถ์กฑ
- complexity์ ๋ํ ์ธ๋ถ์ฑ ๊ณ ๋ ค ๋ถ์กฑ
- ์ค๊ฐ Reasoning trace์ ๋ํ ๋ถ์ ๋ถ์ฌ
Problem States
๋ณต์ก์ฑ์ด ์ฆ๊ฐํ ๋ LRM์ ์ถ๋ก ์ด ์ผ๋ง๋ ์๋๊ณ ์ด๋ฅผ ์ผ๋ง๋ ์ผ๋ฐํํ ์ ์๋๊ฐ?
RQ1ย โthinkingโ์ ์ฆ๊ฐํ๋ ๊ฒ ๋ฌธ์ ํด๊ฒฐ ์ฑ๋ฅ์ ์๊ด๊ด๊ณ๊ฐ ์๋๊ฐ?RQ2ย LRM์ ์ง์ ํ ์ถ๋ก ์ธ๊ฐ, ์๋๋ฉด ํจํด ๋งค์นญ์ธ๊ฐ?RQ3ย ๋ค์ํ(?) ๋ณต์ก์ฑ์ ๊ฑธ์ณ reasoning traces ๋ด๋ถ์์๋ ๋ญ๊ฐ ๋ฐ์ํ๋๊ฐ (๋ฌด์จ ์์ฉ์ด ๋ฐ์๋๋๊ฐ)?
Suggestions
- ์ํ ๋ฒค์น๋งํฌ ์ด์์ผ๋กย ํผ์ฆ ๊ธฐ๋ฐ ํต์ ย ์คํย ์ ์: Tower of Hanoi, Checker Jumping, River Crossing, Blocks World
- ๋ ผ๋ฆฌ๊ท์น์ด ์๊ณ
- ๋ณต์ก๋ ์กฐ์ ๊ฐ๋ฅ = scaling ๋ถ์ ๊ฐ๋ฅ (complexity ์กฐ์ ๊ฐ๋ฅ
- simulator ๊ธฐ๋ฐ ํ๊ฐ๋ก ์ ๋ต ๋ฐ reasoning trace๊น์ง ๊ฒ์ฆ ๊ฐ๋ฅ: ๊ฐ์กด pass@k ํ๊ฐ ํ๊ณ ๋ฐ์ด๋์
Effects
Fig 4ยFig 5ย ํผ์ฆ๋ณ๋ก 3๋จ๊ณ ์ฑ๋ฅ ๊ตฌ๊ฐ ํ์ธ: ์ค๊ฐ reasoning trace ๋ถ์ ๊ฒฐ๊ณผ ์ด๋์ ์ ๋ต์ด ๋์ค๋์ง ํ์- ๋ฎ์ ๋ณต์ก๋: vanilla LLM > LRM
- LRM์ ์ข ์ข ย overthinkingํด์ ์ด๋ฐ์ ๋ต์ด ๋์๋ reasoning์ ์ง์ํ๋ ๊ฒฝ์ฐ ๋ฐ์
- ์ค๊ฐ ๋ณต์ก๋: LRM์ reasoning์ด ๊ธธ์๋ก (CoT ์ถ๋ก Path ๊ธธ์๋ก) ์ฑ๋ฅ ํฅ์
- ๋์ ๋ณต์ก๋: reasoning collapse ๋ฐ์
- reasoning ํ๋ ์ํ๋ ๋ชป๋ง์ถ๋๊ฑด ๋ง์ฐฌ๊ฐ์ง : accuracy 0%
- LRM์ด ์กฐ๊ธ ๋ฆ๊ฒ collapse๋ ๋ฟ
- ๋ฎ์ ๋ณต์ก๋: vanilla LLM > LRM
Fig 6ย Claude-3.7-Thinking, DeepSeek-R1, o3-mini ๋ฑ reasoning ๋ชจ๋ธ๋ค์ ๋ณต์กํ ์๋ก ์ ํ๋ ํ๋ฝ ์ถ์ธ- scaling์์์ ์ด์ํ์: complexity๊ฐ ๋์์ง๋ฉด ์ถ๋ก ํ ํฐ ์๊ฐ ๊ฐ์ > ์ถ๋ก ํฌ๊ธฐ ํ์ (reasoning collapse)
- LRM์ ํ ํฐ ๋ฒ์ง์ด ๋ ์์ด๋ ์๊ฐ์ ๋ฉ์ถค
- LRM์ด scaling ๋ถ๊ฐ๋ฅํ (๊ตฌ์กฐ์ ์ผ๋ก) ํ๊ณ๊ฐ ์์์ ์ฃผ์ฅ
- scaling์์์ ์ด์ํ์: complexity๊ฐ ๋์์ง๋ฉด ์ถ๋ก ํ ํฐ ์๊ฐ ๊ฐ์ > ์ถ๋ก ํฌ๊ธฐ ํ์ (reasoning collapse)
Fig 7ย Claude-3.7-Thinking์ reasoning trace ๋ถ์- ๋จ์ํ ๋ฌธ์ ์ ๋ํด overthinking
- ๋ต์ด tarce ์คํ๋ฐ์ ๋ํ๋๋ ๊ฒฝํฅ ํ์ธ = self-correction์ด ์ ์ง์ ์ผ๋ก ๋ฐ์
- ์ด๋ ค์ฐ๋ฉด ์ด์จ๋ ์คํจ
Fig 8ย gold ์๊ณ ๋ฆฌ์ฆ ์ค๋ ์ ๋๋ก LRM ์์ ์ฑ ๋ฎ์ (=๋ชป๋ง์ถค)- ๊ทผ๋ณธ์ ์ผ๋ก ๊ธฐํธ ์กฐ์์ด๋ ์ผ๊ด์ฑ ์ธก๋ฉด์ ์คํจ๋ก ํ์ ๋จ
Personal note. LLM๋ค์ด ์ง์ง reasoning์ ๋ชปํ๋ค.. ๋ ๊ฒ ์ฌํํ, ๋ ์์ ๊ฐ๋ฅํ ๊ฒฐ๋ก ์ธ๋ฐ, ๋๋ถ๋ถ์ ์ฐ๊ตฌ์๋ค์ด LLM์ด ์ง์ง thinkingํ์ง ๋ชปํ๋ ๊ฒ ๊ฐ๋ค๋ ์ฌ์ค์ ๊ธ์ ํ๋ฉด์๋ ๊ทธ์ ์์์ ์์ง๋ thinking์ด๋ ๋ฌด์์ด๊ณ , ๊ทธ๋์ ์ง์ง reasoning์ ๋ฌด์์ธ์ง์ ๋ํ ๋ณด๋ค ์ง์งํ๊ฒ ์ ์ํ ์ ์๋ค๋ ์ธก๋ฉด์์ (
์ ์ํ ์ ์๊ธฐ๋ ํ๊ฑด์ง..?) ์์ง๋ ๋ง์ ๊ณ ๋ฏผ์ด ํ์ํ๋ค๋ ์๊ฐ์ด ๋ญ๋๋ค.๊ด๋ จํด์ ์ด ์ฐ๊ตฌ์ setup ๊ด๋ จํด์ ๊ณ ๋ฏผํด๋ณผ๋งํ ์ ์, ์ด๋ค์ด ์ ์ํ ๋ณต์ก๋๊ฐ ์ฌ์ ํ ๊ณ์ฐ ๋ฅ๋ ฅ(?)์ ๊ฐ๊น๋ค๊ณ ๋ณด์ ๋๋ค. ์ฆ LLM์ด ๋ง์ ๋ชปํ๊ณ ๊ณฑ์ ๋ชปํ๋ ๊ฒ๊ณผ ๋ง์ฐฌ๊ฐ์ง.. ๋ค์ ๋งํ๋ฉด ๊ณ์ฐ์ฑ ์ถ๋ก ์ํ๋ค๊ณ LLM์ด ๋๋ํ๊ฑด์ง? ๋ ๋ ๋ค๋ฅธ ๋ฌธ์ ์๋๋๋ ์๊ฐ..
์๋ฌดํผ antropic ๋ฑ์์ ์ฃผ๋ชฉํ๊ณ ์๋ interpretability ์ฐ๊ตฌ๋ ๊ณ์ ํ๋ก์ ํด๋ด์ง ํ ๊ฒ ๊ฐ๊ณ , ์์ธ๋ฌ ๋ฐ์ดํฐ์ ์ ๊ณต๊ฐํ๊ฑฐ๋ ํ ๊ฑด ์๋๋ฐ, ์๋ฐํ๊ฒ ํ์ธํด๋ณด์ง ๋ชปํ์ง๋ง, ๋ค์ appendix ์ฐธ๊ณ ํด์ ๋ฐ๋ผํ๋ฉด ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถํด๋ณผ ์ ์๋ ์ฌ์ง๋ ์๋ ๊ฒ ๊ฐ์ต๋๋ค.