Planning Like Human: A Dual-process Framework for Dialogue Planning
Meta info.
- Authors: Tao He, Lizi Liao, Yixin Cao, Yuanxing Liu, Ming Liu, Zerui Chen, Bing Qin
- Paper: https://aclanthology.org/2024.acl-long.262.pdf
- Affiliation: Harbin Institute of Technology
- Published: June 8, 2024
- Code: https://github.com/cs-holder/DPDP
- Conference: ACL2024
TL; DR
์ต์ํ ์ํฉ์ ์ฒ๋ฆฌํ๋ intuitive (fast) ์ ์ฑ
๋ชจ๋ธ๊ณผ ์๋ก์ด ์๋๋ฆฌ์ค๋ฅผ ์ํ analytical (slow)์ ์ ์ฑ
๋ชจ๋ธ์ ์ํธ ๋ณด์์ ์ผ๋ก ์ฌ์ฉํ๋ ์ด์ค dialogue planning ํ๋ ์์ํฌ ์ ์




Problem States
LLM์ด ๋ฐ์์ ์ํ๋๊ฑด ๋ง์ง๋ง, ์ ํด์ง ๋ชฉํ๋ฅผ ํฅํด ๋ต์ ์ ๋ํ์ง๋ ๋ชปํจ (ToD๋ฅผ ์ ๋ชปํ๋ค๋ ์๋ฏธ) + ํ๋กฌํํธ ์์ง๋์ด๋ง์ด๋ ์ถ๊ฐ ํ์ต์ ๋นํจ์จ์ฑ
Suggestions
์ธ๊ฐ์ dual process ์ด๋ก (์ง๊ด์ / ๋ถ์์ ์ฌ๊ณ )์์ ์ฐฉ์, DPDP ์ ์
- LM์ uncertainty ๊ธฐ๋ฐย
sys1ย ์ยsys2ย ๋์ ์ ํsys1ย : ์ต์ํ context์ ๋น ๋ฅด๊ณ ์ง๊ด์ ์ผ๋ก ์๋ตํ๋ policy LM ๋ชจ๋ธsys2ย : ๋ณต์กํ๊ณ ์๋ก์ด ์ํฉ์ ๋ถ์์ธ (๊ทธ๋ฌ๋ ๋๋ฆฐ) planning์ ์ํ MCTS ๊ธฐ๋ฐ ์์คํ
- ํ๋ฅ ์ฐจ์ด ๊ณ์ฐํ์ฌ ๋ถํ์ค์ฑ ์ธก์
-
ฮด(ฯฮธ(at st)) = top(1) - top(2) - ๊ณ์ฐ๋ ํ๋ฅ ์ฐจ์ด๊ฐ์ด ๋ฏธ๋ฆฌ ์ ์๋ ์๊ณ๊ฐ ๋ณด๋ค ํฌ๋ฉด Policy LM์ด ํ์ฌ ์์ฌ ๊ฒฐ์ ์ ๋ํ ํ์ ๋๊ฐ ๋๋ค๊ณ ํ๋จ >ย
sys1
-
- 2๋จ๊ณ ํ์ต
- Offline RL-based Pretraining: LLM์ ์ฌ์ฉํ์ฌ ํ์ต ๋ฐ์ดํฐ์ ์ ๊ฐ ๋ํ ํด์ ์ ์ labelingย ยป ์์ ์ ์๋ฅผ soft reward๋ก ํ๋ State, Action, Reward๋ฅผ ํฌํจํ๋ MDP ์ฝํผ์ค ์ฌ๊ตฌ์ฑย ยป Q-net LM ์ฌ์ ํ์ต (์ง๋ํ์ต ํธํฅ, ๋ ธ์ด์ฆ ๋ฑ ๊ฐ์ ํจ๊ณผ ๊ธฐ๋)
- MCTS-guided Self-play Training: 2๊ฐ LLM์ผ๋ก ์ํธ ๋ํย ยป MCTS๋ก action ์์ธก ์๋ย ยป ์์ธก๋ action์ pre-defined๋ ์์ฐ์ด instruction์ ๋งตํย ยป ์์ instruction์ด๋ ์ด์ ๋ํ ๊ธฐ๋ก์ ์ธํ์ผ๋ก LLM์ด ๋ต๋ณ ์์ฑย ยป 1์ ๋ฐฉ์์ฒ๋ผ LLM์ด Reward๋ก ์ฌ์ฉํ ์ ์ labelingย ยป Policy ํ์ต (Actor-Critic์ผ๋ก ์ต์ ํ)
Effects
- Experimental Setup:
- Datasets: ESConv, CIMA, CraigslistBargain
- Result:
- auto-metric/human metric ๋ชจ๋ DPDP๊ฐ SOTA
- turn ์ ์ค์ด๋ฉด์ ๋ํ ์ฑ๊ณต๋ฅ ํฅ์์ ์์
- MCTS ์ฐ๋ฉด ์ฑ๊ณต๋ฅ ์ ๋์ด์ง๋ง ์ด์จ๋ LLM์ ์จ์ผ๋๋ ๋งํผ ๋น์ฉ์ ์ฆ๊ฐํ๋ ๊ฒ์ ํ๊ณ
- auto-metric/human metric ๋ชจ๋ DPDP๊ฐ SOTA