TO CHAT OR TASK: a Multi-turn Dialogue Generation Framework for Task-Oriented Dialogue Systems
Meta info.
- Authors: Daniel Rim, Minsoo Cho, Changwoo Chun, Jaegul Choo
- Paper: https://aclanthology.org/2025.acl-industry.41.pdf
- Affiliation: Hyundai Motor Company, KAIST AI
- Published: July 28, 2025
- Conference: ACL2025, Industry
TL; DR
chitchat๊ณผ task request๊ฐ ๊ฒฐํฉ๋ multi-turn dialogue ์๋ ๊ตฌ์ถํ๋ framework CTFUSION ์ ์, ์ด๋ฅผ ํ์ฉํด ๋ง๋ IVSR-CTF ๋ฐ์ดํฐ์
์ผ๋ก ํ์ตํ ICS ๋ชจ๋ธ์ด ๊ธฐ๋ฅ ์๋ ๋ถ๋ฅ์์ LLM์ ๋ฅ๊ฐํ๋ฉฐ ๊ทธ ํจ๊ณผ ํ์ธ






Background
- ๊ธฐ์กด IVSR์ ๋จ๋ฐ์ฑ (single-turn) NLU์ request์ ํนํ
- Chitchat์ด ๊ฐ๋ฅํ LLM์ latency ํ๊ณ
- ๊ธฐ์กด ๋ฐ์ดํฐ์ ์ญ์ ์ ์ ์๋์ (์ฐจ๋ ํนํ๋ ์๋), ํน์ ์๋๋ฆฌ์ค์ ํ์
Problem States
LLM chat ๋ชจ๋๊ณผ NLU ์์ ๋ชจ๋์ ํตํฉํ IVSR์์, ๊ฐ ๋ฐํ์ chat/task๋ฅผ ์ ํํ ์๋ณํด์ผ ํ๋ค.
- ๋๊ท๋ชจ, ์ฐจ๋ํนํ, multi-turn chat 2 task ๋ฐ์ดํฐ์ ๋ถ์ฌ
- mode ๋ถ๋ฅ ์คํจ์
- task๋ฅผ chat๋ก ์ค์ธ: LLM hallucination
- chat์ task๋ก ์ค์ธ: Resource ๋ญ๋น
Suggestions
- CTFUSION์ ๋ฐ์ดํฐ ์์ฑ ํ์ดํ๋ผ์ธ์ผ๋กย IVSR-CTFย ๊ตฌ์ถ
- ๊ตฌ์ถ ๊ณผ์
- intent-slot set ๊ตฌ์ฑ:ย GPT-4o๋ก ๊ฐ ์๋๋ณ ํ์/์ ํ ์ฌ๋กฏ ๊ตฌ์ถ (ontology ๊ตฌ์ถ)
- Action Sequence ์ ํ:ย ๋ฐํ ํ๋ฆ(์์ ํ/๋ถ์์ ํ slot filling)/chat ๊ธธ์ด ์ฌ์ ์ ์
- User Data Seed ์ ํ:ย real user utterance๋ฅผ seed๋ก ๋ค์์ฑ+ํ์ค์ฑ ํ๋ณด
- Dialogue Generation:ย intent/slot/action sequence ๊ธฐ๋ฐ GPT-4o ์์ฑ
- Dialogue Augmentation:ย ํ ํฝ ๋ชจ๋ธ๋ง(LDA) + GPT-4o rewriting์ผ๋ก ์ฃผ์ ๋ค์ํ/๊ธธ์ด ์กฐ์
- ๊ตฌ์ถ ๊ณผ์
- ๋ฐ์ดํฐ์
๊ฐ์
- ํ๊ตญ์ด ์ฝ 42K ๋ํ
- 14๊ฐ ๋๋ฉ์ธ ์ดํ์ 240๊ฐ ์ฐจ๋ ๊ด๋ จ intents
- ๋ํ๋น 8.5 turns, chitchat to task transition๋ง์ผ๋ก ๊ตฌ์ฑ
- ๋ฐ์ดํฐ์
๊ฒ์ฆ: Quality evaluation (3-point scale, G-Eval + human)
- Naturalness, Coherence, Efficiency
- ICS ๋ชจ๋ธ ๊ตฌ์ถ: Task or Chat ๊ตฌ๋ถ. LoRA-tuned LLaMA-3.2-3B-Instruct
Effects
- Experiment setup:
- 30K train / 4K dev / 4K test + unseen intent 24 + real user utterance 366
- baselines: GPT-4o, GPT-4o Mini, EXAONE 3.5-32B, Phi-4-14B, LLaMA-3.2-3B
- metrics: accuracy / F1-score for ID
- Results: Domain-specific tuning์ด ํ์๋ค. (์ดํ acc / f1)
- GPT-4o (82.62% / 0.899) ๋๋น ์ ์ ๋ชจ๋ธ ICS 90.36% / 0.908
- OOD์์ 90.72% / 0.919
- realworld utterance 82.51% / 0.874
- Ablation:ย augmentation ์ ์ธ ์ ์ค๋ฐ์ดํฐ ์ฑ๋ฅ ๋ํญ ํ๋ฝ (์ ํ๋ ๊ธฐ์ค 82.51% > 62.30%)
- GPT-4o (82.62% / 0.899) ๋๋น ์ ์ ๋ชจ๋ธ ICS 90.36% / 0.908
Personal note. ์ฐ๊ตฌ ๋ด์ฉ ์์ฒด๋ ๋น์ฐํ๋ค๊ณ ์๊ฐ๋ ์๋ ์์ง๋ง, ๊ทธ๋์ motivation ์ธก๋ฉด์์์ ์ ์ง๋ ์ฐ๊ตฌ์ ๋น์ฐํ ๋ง๋ฟ์ ์ง์ ์ด ๋ง์ ๊ฒ๋ ์ฌ์ค์ด๋ฉฐ, ์์ ์ธก๋ฉด์์ ์ ํฌ๊ฐ ์ด๋ค ๋ถ๋ถ์ ๋ ์ดํํ์ด์ผ ํ๋์ง (๋ฌผ๋ก ํ์ค์ ์ผ๋ก ๋ถ๊ฐ๋ฅํ์ ์๋ ์์ง๋ง..) ์๊ฐํด๋ณด๊ฒ ๋ฉ๋๋ค. metareviewer๊ฐ revisionํ๋ผ๊ณ ์ธ๊ธ๋์๋ ๊ฒ ์ค์, mode selection์ด ์ ํ์ํ์ง์ ๋ํ ์ง์ ์ ์ธ ๋ ํผ๋ฐ์ค๊ฐ ๋๊ธฐ๋ ํ ๊ฒ์ผ๋ก ๋ณด๊ณ ์์ต๋๋ค. industry ํ์ดํผ๋ผ ๋ฐ์ดํฐ๊น์ง ๊ณต๊ฐํ ๊ฒ ๊ฐ์ง ์์ง๋ง, ๋๋ฆ domain/intent ์์ค์ ์์ธ์ prompt ๋ฑ์ ๊ฝค ์์ ํด๋์๋ค์.