Bootstrapping LLM-based Task-Oriented Dialogue Agents via Self-Talk
Meta info.
- Authors: Dennis Ulmer, Elman Mansimov, Kaixiang Lin, Justin Sun, Xibin Gao, Yi Zhang
- Paper: https://arxiv.org/pdf/2401.05033.pdf
- Affiliation: Amazon
TL; DR
LM์ด Self-Talk๋ฅผ ํตํด training ๋ฐ์ดํฐ๋ฅผ ์์ฑ>์ ์ >SFT์ ํ์ฉ (bootstrapping). ์ด ๊ณผ์ ์์ ๋ณ๋ชฉ์ ํด์ํ๊ธฐ ์ํด ๋ํ์ฑ๊ณต ์ฌ๋ถ๋ฅผ ์ธก์ ํ๋ automatic metric ์ ์

Suggestions
- bootstrapping: ์์ฒด ์ถ๋ ฅ์ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ์ด๊ธฐํํ๊ฑฐ๋ ๊ฐ์ ํ๋ ๋ฐฉ๋ฒ. self-talk loop์ ๋ณ๋ชฉ์ผ๋ก (์ด๊ธฐ)๋ฐ์ดํฐ ํ์ง ์ ํ ๋ฌธ์ ๋ ์ปดํจํ ๋ฆฌ์์ค ํ๊ณ, ๋ชจ๋ธ ์ค๋ฅ ์ ํ ๋ฑ์ ์ง์ .
- subgoal completion์ ์ ๋ํํ๊ฒ ๋ํ evaluation์ ํต์ฌ, ์ฃผ๋ก ROUGE-L ์ฌ์ฉ.
- ์ ์ํ โ๋ํ์ workflow stepโ์ด๋ ๋น๊ตํด์ ๋ํ ํ์ง์ ํ๊ฐํ๋๋ฐ, ๊ฒฐ๊ณผ์ ์ผ๋ก workflow step completion์ด 5๊ฐ ์ด์์ด๊ฑฐ๋ ์๋ฃํ ๋น์จ ์์ 5%๋ง ์ฌ์ฉํ๋ ๊ฒ์ด ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๊ฐ์ง๋ค๊ณ ํ์ธ
- ๊ธฐ์ค์ ์๊ฒฉํ ๊ฐ์ ธ๊ฐ์๋ก ์๋ง FT ๋ฐ์ดํฐ์ ์ด ๋ชจ์๋ผ์ ์ฑ๋ฅ์ด ์ ํ๋๋ ๊ฒ์ผ๋ก ์ถ์ธก
Personal note. ํ์คํ ๋ชจ๋ธ์ ๋ํ ์ฑ๋ฅ์ ํฅ์์ํค๋๊ฒ์ ์์ง๊น์ง SFT์ด ๊ฑฐ์ ์ ์ผํ๋ฏ ํ๊ณ , ์ด๋ง์ ๋ ๊ฐ์ ์ํค๊ธฐ ์ํด์๋ ๋ฐ์ดํฐ ์ฌ์ด์ฆ๊ฐ ํต์ฌ์ด๋ผ๋ ๊ฒฝํฅ ํ์ธ