ReSpAct: Harmonizing Reasoning, Speaking, and Acting Towards Building Large Language Model-Based Conversational AI Agents
- Authors: Vardhan Dongre, Xiaocheng Yang, Emre Can Acikgoz, Suvodip Dey, Gokhan Tur, Dilek Hakkani-Tรผr
- Paper: https://aclanthology.org/2025.iwsds-1.7.pdf
- Affiliation: UIUC
- Published: November 1, 2024
TL; DR
LLM-based agent์ reasoning, conversation, action ๊ธฐ๋ฅ์ ํตํฉ, ๋ํํ ํ๊ฒฝ์์ ์ญ๋์ /ํ์
์ /context-awareํ task-solving์ ๊ฐ๋ฅํ๊ฒ ํ๋ ReSpAct ํ๋ ์์ํฌ ์ ์

Background
- ReAct: reasoning+action โdynamic user interaction ๊ณ ๋ ค ๋ชปํจ
- zs ์ค์ฌ inference ์ฐ๊ตฌ: ์ค๋ฅ์ ํ ๋ฌธ์ ํด๊ฒฐ ๋ชปํจ
- ์ ๋ฐ์ ์ผ๋ก ๋ํํ ํ๋ ์์ํฌ์ ๊ฐ๊ฑดํ ์ฑ๋ฅ ๊ตฌํ์ ๋ฌธ์
Problem States
- LLM-based agent๊ฐ ์ฌ์ฉ์ ์๊ตฌ์ ๋ง๊ฒ action์ ๋์ ์ผ๋ก ์กฐ์ ํ ์ ์๋๊ฐ
- ๋ํ ํ๊ฒฝ์์ ๋ฐ์๋๋
- ํผ๋๋ฐฑ/์ค๋ช interaction์ ์ ๋๋ก ํ์ฉํ ์ ์๋๊ฐ
- ์์ธ์ฒ๋ฆฌ, ๊ฐ๋ณ์ ์ธ context์ฒ๋ฆฌ๋ฅผ ์ ์ฐํ๊ฒ ์ฒ๋ฆฌํ ์ ์๋๊ฐ
Suggestion
๋ํํ ์ํธ์์ฉ์ ์์ฌ๊ฒฐ์ ๋ฃจํ์ ์ง์ ํฌํจ > ์ ์๋ ฅ๊ณผ ์ฑ๊ณต๋ฅ ํฅ์ (Reason + Speak + Act)
- A_hat(agent์ space) = A(action) โช L(reasoning path) โช U (utterance): agent๋ ๋งค turn๋ง๋ค ํ๋ํ ์ง, ์๊ฐํ ์ง, ๋งํ ์ง ์ ํ๋ ๋ฌธ์
- internal reasoning (์๋ React์์ ํ๋ Thinking trace)์ด์์ผ๋ก ๋ํ action(์ค๋ช , ์ ๋ฐ์ดํธ, user ์ ๋ ฅ ์์ฒญ) ํฌํจ
- utterance: agent๊ฐ ์ง์ user๋ ์ํตํ๋ ๋ฐํ๋ฅผ ํ ๋ถ๋ฅ๋ก ์ฒ๋ฆฌ
- pre-defined dialogue schema ์์ด task solving ๊ตฌํ: pretrained LLM (e.g., GPT-4o)์ fs prompting๋ง์ผ๋ก ๋์. ๋ณ๋ tuning ์์ด ํ๋กฌํํธ์ ์ญํ ๋ถ์ฌ
- โYou are a helpful assistant. You can reason (THINK), act (ACT), or speak to the user (SPEAK)โฆโ
- fs: action(reason, speak, act) ์ ํ์ด ํฌํจ๋ ์์
์ (Alfworld): ์ปต์ ์ ๋ฐ์ ์ฌ๋ ค๋ผ
1. *~~(Agent) observation: o_t (๊ฐ์ฒด ๋ชฉ๋ก/์์น)~~*
2. (Agent) *THINK*: โ์ปต์ ์ด๋ ์์ง? ์ ๋ฐ์ ์ฌ๋ฆฌ๋ ค๋ฉด ์ผ๋จ ์ฐพ์โ โ think.
3. (Agent) *SPEAK*: โ์ปต์ ์ด๋ ์๋์?โ โ speak(U)๋ก ๋ฌผ์ด๋ด
4. (User) response(feedback): โ์ ๋ฐ 2์ ์์ดโ
5. (Agent) *ACT*: act("take cup from shelf2"), act("put cup on shelf1")....
6. *~~(Agent) update: ์ปจํ
์คํธ ์
๋ฐ์ดํธ ํ ์๋ก์ด ์ก์
๊ฒฐ์ ~~*
- ์ฆ, ฯ(policy): C (ํ์ฌcontext ๊ธฐ๋ฐ) โ A โช L โช U
- C: Observation, Action history, Response (user feedback)
Effects
- Alfworld: 87.3%์ ์ต๊ณ ์ฑ๊ณต๋ฅ ๋ฌ์ฑ (vs. ReAct 80.6%, invalid actions์ด 10%p ๋ ์ ์)
- MultiWOZ: Inform / Success ์์ gpt-4o-mini ๋๋น 5.5%p / 3%p ๊ฐ์
- WebShop: ์ฑ๊ณต๋ฅ 12% (vs. ReAct 8%), user feedback ํฌํจ ํ๊ฒฝ์ผ๋ก ํ์ฅํ๋ฉด 50%๋ก ์ฆ๊ฐ, (Avg Score ๊ธฐ์ค์ผ๋ก๋ 20.1> 85.8)
Personal note. iwsds2025 ์ดํด๋ณด๋ฉด์ ํ์ธํ๋๋ฐ, ํด๋น ์ํฌ์ต์์ ์ฝ์ด๋ณผ๋งํ ๊ฑด์ด๋ผ์ ๊ณต์ ๋๋ ค๋ด ๋๋ค. proactiveํ๋ค๋ ๋๋์์๋ ํ์ฌ ์ฐ๊ตฌ์ ๊ฒฐ์ด ๋น์ทํ๊ธฐ๋ ํ๊ณ , ํํธ์ผ๋ก๋ agentic action์ ๋ํด ๋ ํธ๋ ๋ํ ์ฐ๊ตฌ๋ผ๋ ์๊ฐ๋ ๋ค๊ณ ์. react๊ฐ ๋ชจ๋ธ ํผ์ ๋ด์ ์ผ๋ก ์๊ฐ๋ง ํ๊ณ user feedback์ ๋ฐ์ํ ์๊ฐ์ ๋ชปํ๋ค๋๊ฑธ ํ๊ณ๋ก ์ง์ ํ๋ฉด์(human-in-the-loop), ๊ณต์ ๋๋ฆฌ๋ ์ด ์ฐ๊ตฌ ๋ฟ๋ง ์๋๋ผ ์ค์ ์ฑํ ํ๊ฒฝ์ ๋ํ agent์ ์ฑ๋ฅ ํฅ์์ ๋ณธ๊ฒฉ์ ์ผ๋ก ๊ณ ๋ฏผํด๋ณด๋ ์ฐ๊ตฌ๊ฐ ๋๊ณ ์์ต๋๋ค. ๋ค๋ง planning์ด๋ผ๊ณ ํํ๋๊ณ ์๋ ๋ถ๋ถ๋ค์ด ๊ต์ฅํ ์ถ์์ ์ผ๋ก, ๋ค์ฌ๋ค๋ณด๋ฉด ์ค์ง์ ์ผ๋ก๋ ์ด์ state ํน์ history์ ๋ณด๋ฅผ ๋ชจ๋ธ์ด prompt ๋ ๋ฒจ๋ก ๋ค๊ณ ์๋ค๋ ์ ๋์ ๊ทธ์น๋ ๊ฒ์ด ๊ณตํต์ ์ธ ํ๊ณ๋ก ๋๊ปด์ง๋๋ค.