Budget-Aware Tool-Use Enables Effective Agent Scaling
- Authors: Liu, Zifeng Wang, Jin Miao, I-Hung Hsu, Jun Yan, Jiefeng Chen, Rujun Han, Fangyuan Xu, Yanfei Chen, Ke Jiang, Samira Daruki, Yi Liang, William Yang Wang, Tomas Pfister, Chen-Yu Lee
- Paper: https://arxiv.org/pdf/2511.17006
- Affiliation: Google Cloud AI Research, Google DeepMind, NYU, UC Santa Barbara
- Published: November 21, 2025
TL; DR
ํด ํธ์ถ ์์ฐ์ ๋จ์ํ ๋๋ฆฌ๋ ๊ฒ๋ง์ผ๋ก๋ ์์ด์ ํธ ์ฑ๋ฅ์ด ์ค์ผ์ผ(TTS)๋์ง ์์ผ๋ฉฐ, ์์ฐ์ ๋ช
์์ ์ผ๋ก ์ธ์ํ๋๋ก ํ๋ Budget Tracker์ BATS ํ๋ ์์ํฌ๋ฅผ ๋์
ํ๋ฉด ๋น์ฉ ๋๋น ์ฑ๋ฅ ์ค์ผ์ผ๋ง๊ณผ Pareto frontier๊ฐ ํฌ๊ฒ ๊ฐ์ ๋๋ค.

Background
- TTS(Test-time Scaling)ํ์ฅ: ํ์ต ํ๋ผ๋ฏธํฐ ์ฆ๊ฐ ์์ด ์ถ๋ก ์ ๊ณ์ฐ๋ ์ฆ๊ฐ๋ก ์ฑ๋ฅ ํฅ์
- sequential refinement, parallel sampling, aggregation ๋ฑ TTS์ย
ํ ํฐ ์๋น๋ฅผ ์ค์ผ์ผ๋ง ์ถ์ผ๋ก ์ถ๋ก ๋น์ฉ ํ์ฅ
- sequential refinement, parallel sampling, aggregation ๋ฑ TTS์ย
- Tool-augmented Agent ํ๋: ์น๊ฒ์, ๋ธ๋ผ์ฐ์ง ๋ฑ
- tool call ์ธก๋ฉด์์๋ ์ธ๋ถ ํ๋์ ๋ํ ๋น์ฉ์ด๊ธฐ ๋๋ฌธ์ ํ ํฐ ์๋น๋ก ์ค์ผ์ผ๋ง๋์ง ์์
Problem States
- tool call ๋น์ฉ ์์ฐ์ ํ์ฅํ๋ฉด ์ ๋ง ์ฑ๋ฅ์ด ์ค๋ฅด์ง ์๋๊ฐ
- ์ค์ ๋ก tool call ๋น์ฉ ์์ฐ์ ํ์ฅํด๋ ์ฑ๋ฅ์ ์ค๋ฅด์ง ์๊ฑฐ๋ ๋น ๋ฅธ ํฌํ
- ์ถฉ๋ถํ ์์ฐ์ด ์์ด๋ ์กฐ๊ธฐ์ข ๋ฃํ๊ฑฐ๋ ํ์๊ณผ ๊ฒ์ฆ์ฌ์ด ๊ท ํ์ ์ก์ง ๋ชปํจ
- ์ค์ ๋ก tool call ๋น์ฉ ์์ฐ์ ํ์ฅํด๋ ์ฑ๋ฅ์ ์ค๋ฅด์ง ์๊ฑฐ๋ ๋น ๋ฅธ ํฌํ
- ์์ด์ ํธ์๊ฒ ๋จ์ ์์ฐ์ ์ดํด์ํฌ ์ ์๋?
Suggestions
- Search Agent๋ก TTS ๋ฒ์ ๊ตฌ์ฒดํ
- Search Agent: ์
๋ ฅ์ ๋ํด Thought > external knowledge๋ฅผ ๊ฒ์/๋ธ๋ผ์ฐ์งํ์ฌ ์์ง> ์ถ๋ก (Thought)>โฆ >๋ต (ReAct-style loop)
- Search: ์ผ๋ฐ ๊ฒ์์์ง ์ฟผ๋ฆฌ๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ๊ณ ๊ฒฐ๊ณผ์ ๋ํด tiltie, snippet, URL ๋ฐํ (๋์ํ์)
- Browse: ํน์ URL ์คํฌ๋ํ (๊น์ํ์)
- Search Agent: ์
๋ ฅ์ ๋ํด Thought > external knowledge๋ฅผ ๊ฒ์/๋ธ๋ผ์ฐ์งํ์ฌ ์์ง> ์ถ๋ก (Thought)>โฆ >๋ต (ReAct-style loop)
- ์์ฐ ์ ์ฝ ํ์์ ์์ด์ ํธ scaling formulation: ์์ฐ ์ ์ฝ ํ์์ ๊ธฐ๋ ์ ํ๋๋ฅผ ์ต๋ํํ๋ค
- ํด t_i๋ ํธ์ถ ํ์ c_i์ ๋ํด ์์ฐ b_i๋ฅผ ์ด๊ณผํ ์ ์๋ค.
- ๊ณต์ ๋น๊ต๋ฅผ ์ํ unified cost = token cost + tool-call cost
- ํด ํธ์ถ ์ฆ๊ฐ๋ ํ ํฐ ์ฌ์ฉ๋๊ณผ ๋น๋กํ๋ ์ธก๋ฉด์ด ์์
- ๋ง์ด ๊ฒ์ํ ์๋ก ๊ฒฐ๊ณผ๋ฅผ ๋ฐ์์ ์ฒ๋ฆฌํ๊ณ ์ฝ๋ ๋ฐ์ ํ ํฐ ์๋ชจ (๊ฐํ ์๊ด์ฑ)
- token cost: ์์ด์ ํธ์ ๋ด๋ถ ์ธ์ง ๋ ธ๋ ฅ์ผ๋ก ํด์ (internal knowledge ์ฒ๋ฆฌ, reasoning, planning ๋ฑ์ ์ฌ์ฉ)
- tool call cost: search/browse์ ๋๋ API ํธ์ถ ๋น์ฉ = ์ธ๋ถ ์๋น์ค ๋น์ฉ
- ํด ํธ์ถ ์ฆ๊ฐ๋ ํ ํฐ ์ฌ์ฉ๋๊ณผ ๋น๋กํ๋ ์ธก๋ฉด์ด ์์
- methods:
- Budget Tracker: prompt-level์์ agent-loop์ ์ฝ์
- prompt: tool ๋ณ ์ด ์์ฐ, ํ์ฌ๊น์ง ์ฌ์ฉํ ํธ์ถ ์, ๋จ์ ํธ์ถ ์, ์์ฐ ์ํ์ ๋ฐ๋ฅธ ํ๋ ๊ฐ์ด๋(์์ฐ์ด ๋ง์ผ๋ฉด ์ ๊ทน์ ์ผ๋ก ์ฐพ์๋ผ,โฆ์์ฐ์ด ์ ๋ค๋ฉด ๊ฒ์ฆ ์ค์ฌ์ผ๋ก,,,)
- react ํ๊ณ ๊ฐ์ : ์์ฐ์ ๋ช ์์ ์ธ ์ํ๋ณ์๋ก ๊ด๋ฆฌํ๋ฏ๋ก ๋ด๋ถ ํด๋ฆฌ์คํฑ์ผ๋ก ๋์ถฉ ์ถฉ๋ถํ๋ค๋ ์ธ์์ ๊ฐ์ ๊ฐ๋ฅ
- BATS(budget-aware tts)
- Budget-Aware Planning: ์ด๋ฏธ ์๋ํ ๊ฒ์์ ๋ค์ ํ์ง ์๋๋ก ์ค๊ณ
- ๋ฌธ์ ์ ์ ์ฝ์ (1) Exploration clues (์ฐพ์์ผ ํ ์ ๋ณด)์ (2) Verification clues (์ ๋ต์ ๊ฒ์ฆํ ์กฐ๊ฑด)์ผ๋ก ๋ถํด
- tree ๊ธฐ๋ฐ์ผ๋ก ์ฒดํฌ๋ฆฌ์คํธ(plan)์ ์ ์งํ์ฌ ๊ฐ ๋ ธ๋๊ฐ ์ํ(์๋ฃํ๋์ง) + tool ํธ์ถ ๊ธฐ๋ก ๊ด๋ จ ๊ธฐ๋ก
- Budget-Aware Self-Verification & Continue/Pivot
- ๋ต์์ ๋ํด (1) ์ ์ฝ์กฐ๊ฑด๋ณํ๊ฐ; ๋ง์กฑํ๋์ง, ๊ฒ์ฆ๋๋์ง (2) ์์ฐ์์ฌ๋์ ๊ณ ๋ คํ์ฌ ์ข ๋ฃํ ์ง ๋ ํ์ํ ์ง ์ ๋ต์ ๋ฐ๊ฟ์ง ๋ฑ์ ๊ฒฐ์ (3) ๋ง์ฝ ์ข ๋ฃ๋์ง ๋ชปํ๋ค๋ฉด: ๊ธฐ์กด trajectory๋ฅผ ์์ถํ์ฌ context length ๊ด๋ฆฌ
- Budget-Aware Planning: ์ด๋ฏธ ์๋ํ ๊ฒ์์ ๋ค์ ํ์ง ์๋๋ก ์ค๊ณ
- Budget Tracker: prompt-level์์ agent-loop์ ์ฝ์
Effects
- benchmarks: BrowseComp(์์ด ์น), BrowseComp-ZH(์ค๊ตญ์ด ์น), HLE-Search (Humanโs Last Exam ์ค ๊ฒ์์ด ํ์ํ ๋ฌธ์ )
- backbone: Gemini-2.5-Pro, Claude-Sonnet-4
- tool: Google Custom Search API(Search), Jina,ai + CrawlAI(Browse)
- Results
tab3ย ๋์ผํ ํด ์์ฐํ์์ ๋ชจ๋ ๋ชจ๋ธ์์ ReAct ๋๋น ๋ํญ ์ฑ๋ฅ ๊ฐ์- training-free์์๋ ๋ถ๊ตฌํ๊ณ ํนํ BrowseComp์์ ๊ฒฉ์ฐจ ํผ
fig8Early Stopping ๋ถ์- React: ์์ฐ์ด ์์ด๋ ์ฑ๋ฅ์ด ์ค๋ฅด์ง ์๊ณ , Browse๋ฅผ ๊ฑฐ์ ํ์ง ์์
- BATS: ์์ฐ์ด ๋๋ฉด ๋ ๋งํผ browse๋ฅผ ์ ๊ทน์ ์ผ๋ก ์ํํ๊ณ , ์์ฐ์ด ๋ฎ๋๋ผ๋ baseline ์ด์ ๋ฌ์ฑ
tab4ย ablation- planning์ด ์๊ฑฐ๋ verification์ด ๋น ์ง๋ฉด ์ฑ๋ฅ ํ๋ฝ, ํนํ ํ์์ ๊ฒฝ์ฐ ๊ฒ์ ๊ธฐ๋ฐ ๋ฌธ์ ์์ ํ๊ฒฉ ํผ
Personal note. ํ๋กฌํํธ์ react์ ์ฐ์ฅ์ด๋ผ๋ ์ ์ด ์ฐ๊ตฌ์ ์ผ๋ก ํฅ๋ฏธ๋กญ์ง๋ ์์ ์๋ ์๊ฒ ์ง๋ง ํ์ฅ๊ณผ ํธ์์ฑ ์ธก๋ฉด์ ์ด์ ์ ๋ํด์๋ ๋ฐ๋ฐํ๊ธฐ ์ด๋ ค์๋ณด์ ๋๋ค. ๋ค์์ ์๋ง ๊ทธ๋์ ์์ฐ์ ์ด๋ป๊ฒ ์ ํด์ผํ๋์ง ์ผ ๊ฒ ๊ฐ๊ณ , ์ ์๋ค๋ appendix ๋ง์ง๋ง์ ์ธ๊ธํ๊ธด ํ๋๋ฐ ๋ฌธ์ ์ ์์์ด ์์ด์ ํธ๊ฐ ์ค์ค๋ก ์ด๋ฏธ ๋ญ ํ๊ณ , ์ง๊ธ ์ด๋ค ์ํ์ ์๊ณ , ์์ผ๋ก ๋ญ ๋ ํ ์ ์๋์ง๋ฅผ ์ง์์ ์ผ๋ก ์ ์งํ์ง ๋ชปํ๋ค๋ก ์์ํ๋ค๋ฉด ๊ด๋ จํด์ ๋ฉ๋ชจ๋ฆฌ ์ธก๋ฉด์ ๋ํ ๊ณ ๋ฏผ์ผ๋ก ์์ฐ์ค๋ฝ๊ฒ ์ฐ๊ฒฐ๋ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค. ํํธ์ผ๋ก budget์ personalization์ ๊ฐ์ฅ ์ฝ๊ฒ ์ ๊ทผํ ๋งํ factor๋ผ๋ ์๊ฐ๋ ๋ค๊ณ ์.