Planning Like Human: A Dual-process Framework for Dialogue Planning

August 28, 2024 1 minute read

Meta info.

Authors: Tao He, Lizi Liao, Yixin Cao, Yuanxing Liu, Ming Liu, Zerui Chen, Bing Qin
Paper: https://aclanthology.org/2024.acl-long.262.pdf
Affiliation: Harbin Institute of Technology
Published: June 8, 2024
Code: https://github.com/cs-holder/DPDP
Conference: ACL2024

TL; DR

익숙한 상황을 처리하는 intuitive (fast) 정책 모델과 새로운 시나리오를 위한 analytical (slow)의 정책 모델을 상호 보완적으로 사용하는 이중 dialogue planning 프레임워크 제안

LM의 uncertainty 기반 sys1 와 sys2 동적 전환
- sys1 : 익숙한 context에 빠르고 직관적으로 응답하는 policy LM 모델
- sys2 : 복잡하고 새로운 상황에 분석인 (그러나 느린) planning을 위한 MCTS 기반 시스템
확률 차이 계산하여 불확실성 측정
- δ(πθ(at st)) = top(1) - top(2)
- 계산된 확률 차이값이 미리 정의된 임계값 보다 크면 Policy LM이 현재 의사 결정에 대한 확신도가 높다고 판단 > sys1
2단계 학습
1. Offline RL-based Pretraining: LLM을 사용하여 학습 데이터셋의 각 대화 턴에 점수 labeling » 앞선 점수를 soft reward로 하는 State, Action, Reward를 포함하는 MDP 코퍼스 재구성 » Q-net LM 사전학습 (지도학습 편향, 노이즈 등 감소 효과 기대)
2. MCTS-guided Self-play Training: 2개 LLM으로 상호 대화 » MCTS로 action 예측 시도 » 예측된 action은 pre-defined된 자연어 instruction에 맵핑 » 앞선 instruction이랑 이전 대화 기록을 인풋으로 LLM이 답변 생성 » 1의 방식처럼 LLM이 Reward로 사용할 점수 labeling » Policy 학습 (Actor-Critic으로 최적화)

Experimental Setup:
- Datasets: ESConv, CIMA, CraigslistBargain
Result:
- auto-metric/human metric 모두 DPDP가 SOTA
  - turn 수 줄이면서 대화 성공률 향상에 의의
- MCTS 쓰면 성공률은 높이지만 어쨌든 LLM을 써야되는 만큼 비용은 증가하는 것은 한계