Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training
Meta info.
- Authors: Siyu Yuan, Zehui Chen, Zhiheng Xi, Junjie Ye, Zhengyin Du, Jiecao Chen
- Paper: https://arxiv.org/pdf/2501.11425
- Affiliation: ByteDance Seed, Fudan Univ.
- Published: January 20, 2025
- Code: https://github.com/bytedance/Agent-R
TL; DR
Multi-turn ํ๊ฒฝ์์ LLM self-reflection & correction ๊ฐํ frameworkย Agent-Rย ์ ์







Background
LLM Agent์ ๋ํ ๊ธฐ๋๊ฐ ๋์์ง์ง๋ง, ์์ง ํ๊ณ์ ์ฐ์ฌ
Problem States
- ์ค๋ฅ ์์ ๋ชปํจ: ๊ธฐ์กด์ strong ๋ชจ๋ธ์ ํ๋(expert trajectories)์ ๋ณต์ ํ๋ ๊ฒ์ ๊ธฐ๋ฐ์ผ๋กํ๋ ํ์ต์ ์ค๋ฅ ์์ ์ด๋ path ์์ ์ ๊ฐ๋ฅํ๊ฒํ์ง๋ ๋ชปํจ
- real-time ์์ ๋ชปํจ: single-turn ์ค์ฌ์ด๊ณ ์คํ ์๋ฃ ํ (๋ํ ์ข
๋ฃ ํ) feedback์ด ๋ช
์์ ์ด๊ฒ (์ฝ๋ ์คํ ํ ์ค๋ฅ๋ฉ์ธ์ง) ์ ๊ณต๋๋ ๊ฒ ์๋๋ฉด ์์ ํ ๋ฐฉ๋ฒ์ด ์๋ ํธ โ ์ค๋ฅ ๋์
- ์ฌํ๋ฉด loop์ ๋น ์ ธ์ ๋ชป๋์ด - **Research question:**ย ์ค์๊ฐ + ๋ฉํฐํด ํ๊ฒฝ์์ ์์ ํ ์ ์๋ agent framework ๊ฐ๋ฐ
Suggestion
Iterative Self-Training
- Reflection Trajectory์ ์ํ 4๊ฐ์ง trajectory type ์ ์: initial, bad, good, revision trajectory
- phrase 1: MCTS๋ก ๊ฐ๋ฅํ trajectory ํ์ > ์๋ณ๋ ์ ํ ์ง์ ์์ bad trajectory (์ค๋ฅ์ธ trajectory)๋ good trajectory ์ฐ๊ฒฐ (์์ ) = correction path ๊ตฌ์ฑ (Step-Level Reflection Dataset)
- phrase 2: phrase 1์์ ์์ฑํ trajectory๋ฅผ ๋ชจ๋ธ์ด RL ํ์ต= ์ค๋ฅ ์๋ณ ๋ฐ ์์ ๋ฐฐ์ฐ๋๋ก - **Experiments:**
- `Table 2`ย - Main Table
- Tasks: WebShop, SciWorld, TextCraft - Agent ํ๊ฒฝ์์ ๋ฒค์น๋งํฌ
- metrics: ์ต์ข
๋ฆฌ์๋๋ ์ฑ๊ณต๋ฅ ๋ฑ
- results: Agent-R์ด ๋ชจ๋ ํ๊ฒฝ์์ SOTA
- `Figure 3, 4, 5`ย - iterative training ๊ด๋ จ
- ๊ฐ iteration ์์ Agent-R๊ณผ ๋ค๋ฅธ baseline ๋น๊ต
- results: ํ์ต ๋ฐ๋ณต๋๋ฉด์ ์ฑ๋ฅ์ด ๊พธ์คํ ํฅ์ (iter=3์ด ์ต๋) + loop ๋น ์ง๋ ๋น๋ ํ์ ํ ๊ฐ์ + Revision length๋ ์งง์์ง
Personal note.
์ ์ multi-turn preference ์ด์ผ๊ธฐํ๋ฉด์ ์๊ฐํ๋ ๋ด์ฉ๋ค์ ToD Chitchat ์ ํ ๋ฌธ์ ๋จผ์ ํ๊ฒ ๋ค๊ณ ์ ์ ๋ฏธ๋ค๋๋๋ฐ, ๊ด๋ จ ์ฐ๊ตฌ๊ฐ ์๊พธ ๋์ค๋ฉด์ ์ ๊ฟ์ ์ํฑ ๋ฏ์ต๋๋ค,,,Loop ๋น ์ง๋ค๋ ๋ด์ฉ์ ํ์์ด ํ์์ผ์ ๋ฐํํด์ค ๋ ผ๋ฌธ์์๋ ์ธ๊ธ๋์๋ agent์ ์ฃผ์ ์คํจ ์์ธ์ด๊ณ , multi-turn ํ๊ฒฝ์ ๊ณ ๋ คํ๊ณ ์ ํ๋ ๋ ธ๋ ฅ์ ์ ๊ฐ ๊ธ์ฃผ ๋ฐํ๋๋ฆฐ ๋ ผ๋ฌธ๊ณผ ๋งฅ์ ๊ฐ์ด ํฉ๋๋ค. ํ์ด ๋ฐฉ์๋ ๋น์ท..