The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks
Meta info.
- Authors: Alejandro Cuadron, Dacheng Li, Wenjie Ma, Xingyao Wang, Yichuan Wang, Siyuan Zhuang, Shu Liu, Luis Gaspar Schroeder, Tian Xia, Huanzhi Mao, Nicholas Thumiger, Aditya Desai, Ion Stoica, Ana Klimovic, Graham Neubig, Joseph E. Gonzalez
- Paper: https://www.arxiv.org/pdf/2502.08235
- Affiliation: ETH Zurich, UC Berkeley
- Published: February 12, 2025
TL; DR
LRMs์ด overthinkingํ๊ฒ ๋๋ฉด agentic ํ๊ฒฝ๊ณผ ์ ๋๋ก ์ํธ์์ฉํ์ง ๋ชปํ๋ Reasoning-Action Dilemma๊ฐ ๋ฐ์๋๊ณ , ์ด๋ ์ฑ๋ฅ ํ๋ฝ์ ์ด๋ํ๋ค๋ ๊ฒฐ๊ณผ ๋ณด๊ณ




Background
non-agentic ํ๊ฒฝ์์ CoT Reasoning/self-verification ๋ฑ์ผ๋ก ๊ณ ์ฐจ์ ์ถ๋ก ๊ฐ๋ฅ
- agenticํ๊ฒฝ์์ ์ํธ์์ฉํ๋ฉด์ ์ง์ ์ ์ผ๋ก ์๋ก์ด ์ ๋ณด๋ฅผ ์์งํ๊ณ ํ์ฉ(๋ด๋ถ ์ถ๋ก )ํ ์ ์์๊น?
Problem States
LRMs์ด ์ง๋์น๊ฒ ๋ด๋ถ ์ถ๋ก ์ ๊ณผ์์กดํ๋ ๊ฒฝํฅ์ด ์๊ณ , ์ด๋ฌํ ๊ฒฝํฅ์ด ์ค์ ํ๊ฒฝ๊ณผ์ ์ํธ์์ฉ์ ๋ฐฉํดํ์ฌ ์ฑ๋ฅ ์ ํ ์ด๋ (= overthinking)
Fig4-aย ๊ณํ์ ๊ณผํ๊ฒ ์ธ์ฐ๊ณ ์ ์ ์คํ์ ๋ชปํ๊ฑฐ๋Fig4-bย feedback์ ๊ธฐ๋ค๋ฆฌ์ง ์๊ณ ์ฌ๋ฌ ํ๋์ ํ๊บผ๋ฒ์ ํ๊ฑฐ๋Fig4-cย ํผ๋๋ฐฑ ์์ด(๋ชป๊ธฐ๋ค๋ฆฌ๊ณ ) ์์๋ก ์์ ์ข ๋ฃRQ1ย overthinking์ด ์ค์ ์ฑ๋ฅ์ ์ํฅ์ ์ฃผ๋๊ฐRQ2ย overthinkingํ๋ ๊ฒฝํฅ์ด ๋ชจ๋ธ ์ ํ์ด ๋ฐ๋ผ ๋ค๋ฅธ๊ฐRQ3ย ์ํํ ์ ์๋๊ฐ
Suggestions
- overthinking score: LLM-as-a-judge๋ก 0~10์ ์ฒ๋ ์ ์, 4018๊ฐ ๋ชจ๋ธ์ trajectories๋ฅผ ๋ถ์ํ์ฌ scoring
- ์ค์ ์ ๋ฌธ๊ฐ ํ๊ฐ์ ๋์ ์๊ด๊ด๊ณ ๋ณด๊ณ
- overthinking ์ํ๋ฒ
- ๋คํ ์์ฑ ํ overthinking score๊ฐ ๋ฎ์ trajectories ์ ํ: ์ฑ๋ฅ ํฅ์ 30% + ๋น์ฉ์ 43% ๊ฐ์
- function calling(FC) ํ์ฉ: overthinking์ค์ด๋ ๋ฐ์ ์ ๋ฆฌํ๋ค๊ณ . o1 ๋ชจ๋ธ์ ๊ฒฝ์ฐ fC์ ์ฑ๋ฅ ํฅ์ฑ 47.7%
- Selective Reinforcement Learning ๋ฑ..
Effects
RQ1ย overthinking score ๋์์๋ก ๋ฌธ์ ํด๊ฒฐ๋ ฅ ๋จ์ด์ง (ํ๊ท๋ชจํ์ผ๋ก ํ์ธ)- ํนํ reasoning ๋ชจ๋ธ์ด non-reasoning ๋ชจ๋ธ๋ณด๋ค overthinking ์ ์ 1.3์ ์ด์ ๋์ (3.5 vs. 2.2)
RQ2ย ๋ชจ๋ธ ํฌ๊ธฐ๊ฐ ์์์๋ก overthinking ๋ํ๋๋ฏ.- ์ธ๋ถ ํ๊ฒฝ Feedback ์ฒ๋ฆฌ ์ญ๋ ๋ถ์กฑ์ผ๋ก ๋ณด์ (๊ทธ๋์ ๋ด๋ถ์ ์์กดํ๋๋ฏ)
RQ3ย Function Calling ์ํฅ- FC ์์ผ์ฃผ๋ฉด ์ฑ๋ฅ์ 29.1% โ 47.7%, overthinking score๋ 2.43 โ 1.05
Personal note. over-thinking์ ์ ๋ํํด๋ณธ ์ต์ด ์๋๋ก ๋ณด์ด๊ณ , ์ด๋ฅผ ์ค์ ๋ก ์ต์ ํ ์ ์๋ ์ด๊ธฐ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ ์์๊ฐ ์๋ค๊ณ ์๊ฐํฉ๋๋ค. Function calling์ด ์ฌ๊ธฐ์๋ ์ ์ํ๋ค๊ณ ํ๋ค์ย ๐ค