The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity

June 9, 2025 2 minute read

Meta info.

Authors: Parshin Shojaee, Iman Mirzadeh, Keivan Alizadeh, Maxwell Horton, Samy Bengio, Mehrdad Farajtabar
Paper: https://machinelearning.apple.com/research/illusion-of-thinking
Affiliation: Apple Inc.
Published: June 1, 2025

TL; DR

LRM이 think하는 것처럼 보여도, 복잡도가 높으면 실패하거나 추론도 비효율적으로(=덜) 하는 경우가 많아, 진정한 일반화 추론 성능은 부족하다.

Background

LLM의 reasoning-intensive task발전에 CoT와 self-verification이 주요 기술
DeekSeek-R1이나 여타 reasoning 잘한다는 모델들은 대체로 MATH500/AIME 등 수학 벤치마크로 평가된 것이 일반적
- data contamination에 대한 고려 부족
- complexity에 대한 세부성 고려 부족
- 중간 Reasoning trace에 대한 분석 부재

Problem States

복잡성이 증가할 때 LRM의 추론이 얼마나 잘되고 이를 얼마나 일반화할 수 있는가?

RQ1 ’thinking’을 증가하는 게 문제 해결 성능에 상관관계가 있는가?
RQ2 LRM은 진정한 추론인가, 아니면 패턴 매칭인가?
RQ3 다양한(?) 복잡성에 걸쳐 reasoning traces 내부에서는 뭐가 발생하는가 (무슨 작용이 발생되는가)?

Suggestions

수학 벤치마크 이상으로 퍼즐 기반 통제 실험 제안: Tower of Hanoi, Checker Jumping, River Crossing, Blocks World
- 논리규칙이 있고
- 복잡도 조절 가능 = scaling 분석 가능 (complexity 조절 가능
- simulator 기반 평가로 정답 및 reasoning trace까지 검증 가능: 가존 pass@k 평가 한계 뛰어넘음

Effects

Fig 4 Fig 5 퍼즐별로 3단계 성능 구간 확인: 중간 reasoning trace 분석 결과 어디서 정답이 나오는지 파악
- 낮은 복잡도: vanilla LLM > LRM
  - LRM은 종종 overthinking해서 초반에 답이 나와도 reasoning을 지속하는 경우 발생
- 중간 복잡도: LRM의 reasoning이 길수록 (CoT 추론 Path 길수록) 성능 향상
- 높은 복잡도: reasoning collapse 발생
  - reasoning 하나 안하나 못맞추는건 마찬가지 : accuracy 0%
  - LRM이 조금 늦게 collapse될 뿐
Fig 6 Claude-3.7-Thinking, DeepSeek-R1, o3-mini 등 reasoning 모델들은 복잡할수록 정확도 하락 추세
- scaling에서의 이상현상: complexity가 높아지면 추론 토큰 수가 감소 > 추론 포기 현상 (reasoning collapse)
  - LRM에 토큰 버짓이 더 있어도 생각을 멈춤
  - LRM이 scaling 불가능한 (구조적으로) 한계가 있음을 주장
Fig 7 Claude-3.7-Thinking의 reasoning trace 분석
- 단순한 문제에 대해 overthinking
- 답이 tarce 중후반에 나타나는 경향 확인 = self-correction이 점진적으로 반영
- 어려우면 어쨌든 실패
Fig 8 gold 알고리즘 줘도 제대로 LRM 안정성 낮음 (=못맞춤)
- 근본적으로 기호 조작이나 일관성 측면의 실패로 파악됨

Personal note. LLM들이 진짜 reasoning은 못한다.. 는 게 심플한, 또 예상 가능한 결론인데, 대부분의 연구자들이 LLM이 진짜 thinking하지 못하는 것 같다는 사실에 긍정하면서도 그에 앞서서 아직도 thinking이란 무엇이고, 그래서 진짜 reasoning은 무엇인지에 대한 보다 진지하게 정의할 수 없다는 측면에서 (~~정의할수 있기는 한건지..?~~) 아직도 많은 고민이 필요하다는 생각이 듭니다.

관련해서 이 연구의 setup 관련해서 고민해볼만한 점은, 이들이 정의한 복잡도가 여전히 계산 능력(?)에 가깝다고 보입니다. 즉 LLM이 덧셈 못하고 곱셈 못하는 것과 마찬가지.. 다시 말하면 계산성 추론 잘한다고 LLM이 똑똑한건지? 는 또 다른 문제 아니냐는 생각..

아무튼 antropic 등에서 주목하고 있는 interpretability 연구도 계속 팔로업해봄직 한 것 같고, 아울러 데이터셋을 공개하거나 한 건 아닌데, 엄밀하게 확인해보진 못했지만, 뒤에 appendix 참고해서 따라하면 데이터셋을 구축해볼 수 있는 여지는 있는 것 같습니다.