Zero-Shot Cross-Domain Dialogue State Tracking via Dual Low-Rank Adaptation

August 2, 2024 less than 1 minute read

Meta info.

TL; DR

multi-layer구조를 기반으로 한 transformer 계열 모델에서 prompt가 뒤쪽으로 갈수록 잊혀지는 문제를 완화하는 DualLoRA 제안

Untitled

원본 dialogue context 처리 LoRA: prompt + context 통합
prompt 최적화 LoRA : 일종의 prompt tuning, slot prompt 의해 발생되는 초기 노이즈 완화 목적으로 $B_p$는 0으로 초기화. ($A_p$는 Gaissian)
pic2: 동일한 도메인의 slot embedding은 차이가 거의 없음 + 학습 초기에 특히 모델의 사전학습 지식과 슬롯 정보가 충돌되기 때문 (모델이 프롬프트를 잘못 학습할 여지)
backbone: T5-style (각 attention layer와 결합하는 구조)

Personal note. 아마 대단히 새로운 내용은 아닐 수 있겠지만, DST 포함 ToD씬에서 크지 않은 모델을 선호하는 측면에서 특히 유효한 접근으로 보여집니다.