TO CHAT OR TASK: a Multi-turn Dialogue Generation Framework for Task-Oriented Dialogue Systems

August 12, 2025 1 minute read

Meta info.

Authors: Daniel Rim, Minsoo Cho, Changwoo Chun, Jaegul Choo
Paper: https://aclanthology.org/2025.acl-industry.41.pdf
Affiliation: Hyundai Motor Company, KAIST AI
Published: July 28, 2025
Conference: ACL2025, Industry

TL; DR

chitchat과 task request가 결합된 multi-turn dialogue 자동 구축하는 framework CTFUSION 제안, 이를 활용해 만든 IVSR-CTF 데이터셋으로 학습한 ICS 모델이 기능 의도 분류에서 LLM을 능가하며 그 효과 확인

Background

기존 IVSR의 단발성 (single-turn) NLU식 request에 특화
Chitchat이 가능한 LLM은 latency 한계
기존 데이터셋 역시 적은 의도수 (차량 특화도 아님), 특정 시나리오에 한정

Problem States

LLM chat 모듈과 NLU 작업 모듈을 통합한 IVSR에서, 각 발화의 chat/task를 정확히 식별해야 한다.

대규모, 차량특화, multi-turn chat 2 task 데이터셋 부재
mode 분류 실패시
- task를 chat로 오인: LLM hallucination
- chat을 task로 오인: Resource 낭비

Suggestions

CTFUSION의 데이터 생성 파이프라인으로 IVSR-CTF 구축
- 구축 과정
  1. intent-slot set 구성: GPT-4o로 각 의도별 필수/선택 슬롯 구축 (ontology 구축)
  2. Action Sequence 선택: 발화 흐름(완전한/불완전한 slot filling)/chat 길이 사전 정의
  3. User Data Seed 선택: real user utterance를 seed로 다양성+현실성 확보
  4. Dialogue Generation: intent/slot/action sequence 기반 GPT-4o 생성
  5. Dialogue Augmentation: 토픽 모델링(LDA) + GPT-4o rewriting으로 주제 다양화/길이 조정
데이터셋 개요
- 한국어 약 42K 대화
- 14개 도메인 이하의 240개 차량 관련 intents
- 대화당 8.5 turns, chitchat to task transition만으로 구성
데이터셋 검증: Quality evaluation (3-point scale, G-Eval + human)
- Naturalness, Coherence, Efficiency
ICS 모델 구축: Task or Chat 구분. LoRA-tuned LLaMA-3.2-3B-Instruct

Effects

Experiment setup:
- 30K train / 4K dev / 4K test + unseen intent 24 + real user utterance 366
- baselines: GPT-4o, GPT-4o Mini, EXAONE 3.5-32B, Phi-4-14B, LLaMA-3.2-3B
- metrics: accuracy / F1-score for ID
Results: Domain-specific tuning이 필수다. (이하 acc / f1)
- GPT-4o (82.62% / 0.899) 대비 제안 모델 ICS 90.36% / 0.908
  - OOD에서 90.72% / 0.919
  - realworld utterance 82.51% / 0.874
- Ablation: augmentation 제외 시 실데이터 성능 대폭 하락 (정확도 기준 82.51% > 62.30%)

Personal note. 연구 내용 자체는 당연하다고 생각될 수도 있지만, 그래서 motivation 측면에서의 제 지난 연구와 당연히 맞닿은 지점이 많은 것도 사실이며, 서술 측면에서 저희가 어떤 부분을 더 어필했어야 했는지 (물론 현실적으로 불가능했을 수도 있지만..) 생각해보게 됩니다. metareviewer가 revision하라고 언급되었던 것 중에, mode selection이 왜 필요한지에 대한 직접적인 레퍼런스가 되기도 할 것으로 보고 있습니다. industry 페이퍼라 데이터까지 공개할 것 같진 않지만, 나름 domain/intent 수준의 상세와 prompt 등은 꽤 상술해두었네요.