The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks

February 24, 2025 1 minute read

Meta info.

Authors: Alejandro Cuadron, Dacheng Li, Wenjie Ma, Xingyao Wang, Yichuan Wang, Siyuan Zhuang, Shu Liu, Luis Gaspar Schroeder, Tian Xia, Huanzhi Mao, Nicholas Thumiger, Aditya Desai, Ion Stoica, Ana Klimovic, Graham Neubig, Joseph E. Gonzalez
Paper: https://www.arxiv.org/pdf/2502.08235
Affiliation: ETH Zurich, UC Berkeley
Published: February 12, 2025

TL; DR

LRMs이 overthinking하게 되면 agentic 환경과 제대로 상호작용하지 못하는 Reasoning-Action Dilemma가 발생되고, 이는 성능 하락을 초래한다는 결과 보고

Background

non-agentic 환경에서 CoT Reasoning/self-verification 등으로 고차원 추론 가능

agentic환경에서 상호작용하면서 직접적으로 새로운 정보를 수집하고 활용(내부 추론)할 수 있을까?

Problem States

LRMs이 지나치게 내부 추론에 과의존하는 경향이 있고, 이러한 경향이 실제 환경과의 상호작용을 방해하여 성능 저하 초래 (= overthinking)

Fig4-a 계획을 과하게 세우고 정작 실행은 못하거나
Fig4-b feedback을 기다리지 않고 여러 행동을 한꺼번에 하거나
Fig4-c 피드백 없이(못기다리고) 임의로 작업종료
RQ1 overthinking이 실제 성능에 영향을 주는가
RQ2 overthinking하는 경향이 모델 유형이 따라 다른가
RQ3 완화할 수 있는가

Suggestions

overthinking score: LLM-as-a-judge로 0~10점 척도 정의, 4018개 모델의 trajectories를 분석하여 scoring
- 실제 전문가 평가와 높은 상관관계 보고
overthinking 완화법
- 다회 생성 후 overthinking score가 낮은 trajectories 선택: 성능 향상 30% + 비용은 43% 감소
- function calling(FC) 활용: overthinking줄이는 데에 유리했다고. o1 모델의 경우 fC시 성능 향성 47.7%
- Selective Reinforcement Learning 등..

Effects

RQ1 overthinking score 높을수록 문제 해결력 떨어짐 (회귀모형으로 확인)
- 특히 reasoning 모델이 non-reasoning 모델보다 overthinking 점수 1.3점 이상 높음 (3.5 vs. 2.2)
RQ2 모델 크기가 작을수록 overthinking 더하는듯.
- 외부 환경 Feedback 처리 역량 부족으로 보임 (그래서 내부에 의존하는듯)
RQ3 Function Calling 영향
- FC 시켜주면 성능은 29.1% → 47.7%, overthinking score는 2.43 → 1.05

Personal note. over-thinking을 정량화해본 최초 시도로 보이고, 이를 실제로 억제할 수 있는 초기 방법론을 제시한 의의가 있다고 생각합니다. Function calling이 여기서도 유의하다고 하네요 🤔