Flipping the Dialogue: Training and Evaluating User Language Models

November 20, 2025 3 minute read

Meta info.

Authors: Tarek Naous, Philippe Laban, Wei Xu, Jennifer Neville
Paper: https://arxiv.org/pdf/2510.06552v1
Affiliation: Georgia Tech, Microsoft Research
Published: November 8, 2025
Code: https://huggingface.co/microsoft/userlm-8b

TL; DR

Assistant용 LM을 user처럼 역할 지시해 시뮬레이션하는 기존 방식은 본질적으로 비현실적이며, 실제 human user 행동을 학습한 UserLM이 훨씬 더 자연스러운 multi-turn user behavior를 재현해 assistant 성능의 진짜 한계를 드러낸다.

Background

assistant LLM은 실제 multi-turn 대화에 노출되나, 대부분의 평가는 single-turn static benchmark 기반
- 지난 연구에서 모델의 multi-turn 성능이 크게 떨어지는 것을 이미 확인
현실 user는
- 원하는 의도(intent)를 처음부터 다 낱낱이 밝히지도 않고 (turn마다 추가)
- 모호하고 불완전하게 발화하며,
- 단문, 불친절한문장을 사용하며,
- 대화 종료를 스스로 결정
반면 assistant는 애초에 user처럼 될 수 없음
- 협조적이고, 구조화되었으면서
- 완전한 문장을 구사하도록 학습된
- 그렇기 때문에 오류를 피하는 방향으로 정제
- 그런데 user 를 모사할때는 LLM한테 role 부여하는 프롬프트 한줄이 현실

Problem States

User를 모사하는 LM을 만들자

진짜 assistant LLM이 user같지 않은가?
- 실험: Assistant LM의 성능이 높을수록 user simulator로는 부적절
  - GPT-4o가 더 자연스럽게 연기할 것 같지만
  - 오히려 user-like behavior에서 멀어짐

Suggestions

User intent를 기반으로 첫 turn 생성
- intent를 high-level로 유지
  - 다양성을 위해 어느정도의 아웃라인만 줌
  - 아예 없을 경우 steering의 어려움
  - 예: “You are a user chatting with an assistant to get advice about weight loss.”
Assistant의 응답으로 다음 user turn 생성 (즉 assistant-turn 생성하지 않음)
- =>이를 flipping 이라고 표현
적절한 시점에 대화 종료
기존 데이터셋의 assistant 대신 user쪽 turn을 학습에 활용
training details:
- dataset: WildChat에서 deduplicate한 약 38만 대화
- intent: GPT-4o fs으로 생성
- backbone: Llama-3.2-1B / Llama-3-8B
  - instruct하지 않은 base 사용
    - instruct 쓰면 성능 나빠졌다고
    - instruct는 assistant로서의 post-training으로 user 행동에서 더 멀어짐
- hyper-parameters: max length 2048-token, 1024-batch, LR 2e-5, A6000*4, 8B모델 기준 227시간 학습

Effects

PPL: Distributional Alignment tab 1
- UserLM-8B가 WildChat, PRISM 모두에서 가장 작은 PPL 달성
- intent conditioning은 모든 모델의 PPL 감소 (steering 가능성 증가로 해석)
- base모델이 Instruct 모델보다 UserLM 성능으로는 더 우수
Multi-turn Interaction tab 2; 측정 대상으로 첫-turn의 다양성, intent decomposition, 대화 종료 확인
- 첫턴 다양성: Assistant로 학습된 LM은 user-turn이 거기서 거기
  - UserLM이 94.55%로 Real user(94.01%)에 근사
  - gpt-4o가 74.42%
- Intent decomposition: 실제 사람이 정보를 천천히 풀어내듯 UserLM이 이를 모사한다고 해석
  - intent와 n-gram overlap이 낮을수록 좋다고 가정
  - real user가 1.68%일 때 UserLM이 2.69%로 가장 근사
  - gpt-4o 7.68% 등
- Dialogue Termination: AssistantLM은 사람처럼 대화를 끝내지 않음.
  - < endconveration >의 F1-score에 대해
  - UserLM이 63.54로 GPT-4o의 3.31대비 월등한 수준
Simulation Robustness ; naturalness, user-role adherence, intent adherence
- naturalness: prompt로 user role이 불가함을 시사
  - real user 90%에 대해 UserLM-8B 80.21
  - Assistant에 prompting할 때 0-3%수준
- user-role adherence: Assistant가 질문하면 User처럼 모르는 척 할 수 있는가?
  - UserLM-8B는 93.95%로 최고 수준. GPT-4o가 38% 수준 (gpt-4o-mini는 80.20%)
  - 아마 gpt-4o의 helpfulness때문에 user-role에서 이탈할 것
- intent adherence: assistant가 의도 파악 못하고 다른 방향성을 제시할 때 거절할 수 있는가?
  - UserLM-8B가 94.65%성능으로 제대로 파악. gpt-4o는 약 70.95%정도
  - UserLM이 obstinate한 인간을 잘 재현했다고 평가
Coding, Math multi-turn simulation Fig 1 : GSM8K, HumanEval
- AssistantLM: GPT-4o
- UserLM을 user로 두면 assistant가 74.6%에서 57.4%로 급락
- 즉 GPT기반 user simulator는 너무 친절하므로 assistantLM에 유리한 환경을 제공
Simulation Behavior tab 3 : UserLM은 real user처럼 정보를 반복하고 추가 constraints를 넣고 lexically diverse하고 turn 길이도 다변화

Personal note.

주요 저자 및 교신저자가 겹친 것으로 보아 instruction을 multi-turn으로 shard해서 주면 더 못하더라는 MS 논문의 후속(혹은 진짜 하고싶었던 연구의 방향)으로 보입니다.

실제 유저는 처음부터 정보를 다 주지 않는데, 현재 벤치마크나 다양한 실험들은 assistant 친화적으로 정보를 다 주고 시작하거나, 실제 사용 환경(multi-turn 환경)을 재현해내지 못한다고 지적한 것도 타당하고

방식은 무척 단순하지만; human 역할 데이터를 instruct안 된 모델에 학습시키기 분석 결과가 매우 분명한 게 큰 매력으로 다가옵니다.

HCI의 영역을 살짝 빗겨서 Human-machine dialogue를 연구할 때 근본적으로 지적하고 넘어갔어야 하는 문제를 짚은 것 같아서 인상깊게 읽었습니다.

지난 랩미팅에서 교수님께서 마치 지금 LLM으로 데이터 생성하고 검토하는 것에는 아무 문제가 없는 것처럼 쓰다가 문제를 제기하거나 실험에서 보이고자 하는 것은 그런 LLM들이 못한다고 주장하는 현재 연구 흐름에서 한계가 느껴진다고 했던 것도 기억이 나고요.

dialogue를 생성할 때 유익하게 사용할 수 있지 않을까 싶은 흐름입니다.