ReSpAct: Harmonizing Reasoning, Speaking, and Acting Towards Building Large Language Model-Based Conversational AI Agents

May 27, 2025 1 minute read

Meta info.

Authors: Vardhan Dongre, Xiaocheng Yang, Emre Can Acikgoz, Suvodip Dey, Gokhan Tur, Dilek Hakkani-Tür
Paper: https://aclanthology.org/2025.iwsds-1.7.pdf
Affiliation: UIUC
Published: November 1, 2024

TL; DR

LLM-based agent에 reasoning, conversation, action 기능을 통합, 대화형 환경에서 역동적/협업적/context-aware한 task-solving을 가능하게 하는 ReSpAct 프레임워크 제안

Background

ReAct: reasoning+action →dynamic user interaction 고려 못함
zs 중심 inference 연구: 오류전파 문제 해결 못함
전반적으로 대화형 프레임워크의 강건한 성능 구현의 문제

Problem States

LLM-based agent가 사용자 요구에 맞게 action을 동적으로 조정할 수 있는가
대화 환경에서 발생되는
- 피드백/설명 interaction을 제대로 활용할 수 있는가
- 예외처리, 가변적인 context처리를 유연하게 처리할 수 있는가

Suggestion

대화형 상호작용을 의사결정 루프에 직접 포함 > 적응력과 성공률 향상 (Reason + Speak + Act)

A_hat(agent의 space) = A(action) ∪ L(reasoning path) ∪ U (utterance): agent는 매 turn마다 행동할지, 생각할지, 말할지 정하는 문제
- internal reasoning (원래 React에서 하던 Thinking trace)이상으로 대화 action(설명, 업데이트, user 입력 요청) 포함
- utterance: agent가 직접 user랑 소통하는 발화를 한 분류로 처리
- pre-defined dialogue schema 없이 task solving 구현: pretrained LLM (e.g., GPT-4o)에 fs prompting만으로 동작. 별도 tuning 없이 프롬프트에 역할 부여
  - “You are a helpful assistant. You can reason (THINK), act (ACT), or speak to the user (SPEAK)…”
  - fs: action(reason, speak, act) 유형이 포함된 예시

예 (Alfworld): 컵을 선반에 올려라

*~~(Agent) observation: o_t (객체 목록/위치)~~*
(Agent) *THINK*: “컵은 어디 있지? 선반에 올리려면 일단 찾자” → think.
(Agent) *SPEAK*: “컵은 어디 있나요?” → speak(U)로 물어봄
(User) response(feedback): “선반 2에 있어”
(Agent) *ACT*: act("take cup from shelf2"), act("put cup on shelf1")....
*~~(Agent) update: 컨텍스트 업데이트 후 새로운 액션 결정~~*

즉, π(policy): C (현재context 기반) → A ∪ L ∪ U
- C: Observation, Action history, Response (user feedback)

Effects

Alfworld: 87.3%의 최고 성공률 달성 (vs. ReAct 80.6%, invalid actions이 10%p 더 적음)
MultiWOZ: Inform / Success 에서 gpt-4o-mini 대비 5.5%p / 3%p 개선
WebShop: 성공률 12% (vs. ReAct 8%), user feedback 포함 환경으로 확장하면 50%로 증가, (Avg Score 기준으로는 20.1> 85.8)

Personal note. iwsds2025 살펴보면서 확인했는데, 해당 워크샵에서 읽어볼만한 건이라서 공유드려봅니다. proactive하다는 느낌에서는 현재 연구와 결이 비슷하기도 하고, 한편으로는 agentic action에 대해 더 트렌디한 연구라는 생각도 들고요. react가 모델 혼자 내적으로 생각만 하고 user feedback을 반영할 생각을 못했다는걸 한계로 지적하면서(human-in-the-loop), 공유드리는 이 연구 뿐만 아니라 실제 채팅환경에 대한 agent의 성능 향상을 본격적으로 고민해보는 연구가 늘고 있습니다. 다만 planning이라고 표현되고 있는 부분들이 굉장히 추상적으로, 들여다보면 실질적으로는 이전 state 혹은 history정보를 모델이 prompt 레벨로 들고있다는 정도에 그치는 것이 공통적인 한계로 느껴집니다.