Flipping the Dialogue: Training and Evaluating User Language Models
Meta info.
- Authors: Tarek Naous, Philippe Laban, Wei Xu, Jennifer Neville
- Paper: https://arxiv.org/pdf/2510.06552v1
- Affiliation: Georgia Tech, Microsoft Research
- Published: November 8, 2025
- Code: https://huggingface.co/microsoft/userlm-8b
TL; DR
Assistant์ฉ LM์ user์ฒ๋ผ ์ญํ ์ง์ํด ์๋ฎฌ๋ ์ด์
ํ๋ ๊ธฐ์กด ๋ฐฉ์์ ๋ณธ์ง์ ์ผ๋ก ๋นํ์ค์ ์ด๋ฉฐ, ์ค์ human user ํ๋์ ํ์ตํ UserLM์ด ํจ์ฌ ๋ ์์ฐ์ค๋ฌ์ด multi-turn user behavior๋ฅผ ์ฌํํด assistant ์ฑ๋ฅ์ ์ง์ง ํ๊ณ๋ฅผ ๋๋ฌ๋ธ๋ค.

Background
- assistant LLM์ ์ค์ multi-turn ๋ํ์ ๋
ธ์ถ๋๋, ๋๋ถ๋ถ์ ํ๊ฐ๋ single-turn static benchmark ๊ธฐ๋ฐ
- ์ง๋ ์ฐ๊ตฌ์์ ๋ชจ๋ธ์ multi-turn ์ฑ๋ฅ์ด ํฌ๊ฒ ๋จ์ด์ง๋ ๊ฒ์ ์ด๋ฏธ ํ์ธ
- ํ์ค user๋
- ์ํ๋ ์๋(intent)๋ฅผ ์ฒ์๋ถํฐ ๋ค ๋ฑ๋ฑ์ด ๋ฐํ์ง๋ ์๊ณ (turn๋ง๋ค ์ถ๊ฐ)
- ๋ชจํธํ๊ณ ๋ถ์์ ํ๊ฒ ๋ฐํํ๋ฉฐ,
- ๋จ๋ฌธ, ๋ถ์น์ ํ๋ฌธ์ฅ์ ์ฌ์ฉํ๋ฉฐ,
- ๋ํ ์ข ๋ฃ๋ฅผ ์ค์ค๋ก ๊ฒฐ์
- ๋ฐ๋ฉด assistant๋ ์ ์ด์ user์ฒ๋ผ ๋ ์ ์์
- ํ์กฐ์ ์ด๊ณ , ๊ตฌ์กฐํ๋์์ผ๋ฉด์
- ์์ ํ ๋ฌธ์ฅ์ ๊ตฌ์ฌํ๋๋ก ํ์ต๋
- ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ์ค๋ฅ๋ฅผ ํผํ๋ ๋ฐฉํฅ์ผ๋ก ์ ์
- ๊ทธ๋ฐ๋ฐ user ๋ฅผ ๋ชจ์ฌํ ๋๋ LLMํํ role ๋ถ์ฌํ๋ ํ๋กฌํํธ ํ์ค์ด ํ์ค
Problem States
User๋ฅผ ๋ชจ์ฌํ๋ LM์ ๋ง๋ค์
- ์ง์ง assistant LLM์ด user๊ฐ์ง ์์๊ฐ?
- ์คํ: Assistant LM์ ์ฑ๋ฅ์ด ๋์์๋ก user simulator๋ก๋ ๋ถ์ ์
- GPT-4o๊ฐ ๋ ์์ฐ์ค๋ฝ๊ฒ ์ฐ๊ธฐํ ๊ฒ ๊ฐ์ง๋ง
- ์คํ๋ ค user-like behavior์์ ๋ฉ์ด์ง
- ์คํ: Assistant LM์ ์ฑ๋ฅ์ด ๋์์๋ก user simulator๋ก๋ ๋ถ์ ์
Suggestions
- User intent๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ฒซ turn ์์ฑ
- intent๋ฅผ high-level๋ก ์ ์ง
- ๋ค์์ฑ์ ์ํด ์ด๋์ ๋์ ์์๋ผ์ธ๋ง ์ค
- ์์ ์์ ๊ฒฝ์ฐ steering์ ์ด๋ ค์
- ์: โYou are a user chatting with an assistant to get advice about weight loss.โ
- intent๋ฅผ high-level๋ก ์ ์ง
- Assistant์ ์๋ต์ผ๋ก ๋ค์ user turn ์์ฑ (์ฆ assistant-turn ์์ฑํ์ง ์์)
- =>์ด๋ฅผ flipping ์ด๋ผ๊ณ ํํ
- ์ ์ ํ ์์ ์ ๋ํ ์ข ๋ฃ
- ๊ธฐ์กด ๋ฐ์ดํฐ์ ์ assistant ๋์ user์ชฝ turn์ ํ์ต์ ํ์ฉ
- training details:
- dataset: WildChat์์ deduplicateํ ์ฝ 38๋ง ๋ํ
- intent: GPT-4o fs์ผ๋ก ์์ฑ
- backbone: Llama-3.2-1B / Llama-3-8B
- instructํ์ง ์์ base ์ฌ์ฉ
- instruct ์ฐ๋ฉด ์ฑ๋ฅ ๋๋น ์ก๋ค๊ณ
- instruct๋ assistant๋ก์์ post-training์ผ๋ก user ํ๋์์ ๋ ๋ฉ์ด์ง
- instructํ์ง ์์ base ์ฌ์ฉ
- hyper-parameters: max length 2048-token, 1024-batch, LR 2e-5, A6000*4, 8B๋ชจ๋ธ ๊ธฐ์ค 227์๊ฐ ํ์ต
Effects
- PPL: Distributional Alignment
tab 1- UserLM-8B๊ฐ WildChat, PRISM ๋ชจ๋์์ ๊ฐ์ฅ ์์ PPL ๋ฌ์ฑ
- intent conditioning์ ๋ชจ๋ ๋ชจ๋ธ์ PPL ๊ฐ์ (steering ๊ฐ๋ฅ์ฑ ์ฆ๊ฐ๋ก ํด์)
- base๋ชจ๋ธ์ด Instruct ๋ชจ๋ธ๋ณด๋ค UserLM ์ฑ๋ฅ์ผ๋ก๋ ๋ ์ฐ์
- Multi-turn Interaction
tab 2; ์ธก์ ๋์์ผ๋ก ์ฒซ-turn์ ๋ค์์ฑ, intent decomposition, ๋ํ ์ข ๋ฃ ํ์ธ- ์ฒซํด ๋ค์์ฑ: Assistant๋ก ํ์ต๋ LM์ user-turn์ด ๊ฑฐ๊ธฐ์ ๊ฑฐ๊ธฐ
- UserLM์ด 94.55%๋ก Real user(94.01%)์ ๊ทผ์ฌ
- gpt-4o๊ฐ 74.42%
- Intent decomposition: ์ค์ ์ฌ๋์ด ์ ๋ณด๋ฅผ ์ฒ์ฒํ ํ์ด๋ด๋ฏ UserLM์ด ์ด๋ฅผ ๋ชจ์ฌํ๋ค๊ณ ํด์
- intent์ n-gram overlap์ด ๋ฎ์์๋ก ์ข๋ค๊ณ ๊ฐ์
- real user๊ฐ 1.68%์ผ ๋ UserLM์ด 2.69%๋ก ๊ฐ์ฅ ๊ทผ์ฌ
- gpt-4o 7.68% ๋ฑ
- Dialogue Termination: AssistantLM์ ์ฌ๋์ฒ๋ผ ๋ํ๋ฅผ ๋๋ด์ง ์์.
-
< endconveration >์ F1-score์ ๋ํด - UserLM์ด 63.54๋ก GPT-4o์ 3.31๋๋น ์๋ฑํ ์์ค
-
- ์ฒซํด ๋ค์์ฑ: Assistant๋ก ํ์ต๋ LM์ user-turn์ด ๊ฑฐ๊ธฐ์ ๊ฑฐ๊ธฐ
- Simulation Robustness ; naturalness, user-role adherence, intent adherence
- naturalness: prompt๋ก user role์ด ๋ถ๊ฐํจ์ ์์ฌ
- real user 90%์ ๋ํด UserLM-8B 80.21
- Assistant์ promptingํ ๋ 0-3%์์ค
- user-role adherence: Assistant๊ฐ ์ง๋ฌธํ๋ฉด User์ฒ๋ผ ๋ชจ๋ฅด๋ ์ฒ ํ ์ ์๋๊ฐ?
- UserLM-8B๋ 93.95%๋ก ์ต๊ณ ์์ค. GPT-4o๊ฐ 38% ์์ค (gpt-4o-mini๋ 80.20%)
- ์๋ง gpt-4o์ helpfulness๋๋ฌธ์ user-role์์ ์ดํํ ๊ฒ
- intent adherence: assistant๊ฐ ์๋ ํ์
๋ชปํ๊ณ ๋ค๋ฅธ ๋ฐฉํฅ์ฑ์ ์ ์ํ ๋ ๊ฑฐ์ ํ ์ ์๋๊ฐ?
- UserLM-8B๊ฐ 94.65%์ฑ๋ฅ์ผ๋ก ์ ๋๋ก ํ์ . gpt-4o๋ ์ฝ 70.95%์ ๋
- UserLM์ด obstinateํ ์ธ๊ฐ์ ์ ์ฌํํ๋ค๊ณ ํ๊ฐ
- naturalness: prompt๋ก user role์ด ๋ถ๊ฐํจ์ ์์ฌ
- Coding, Math multi-turn simulation
Fig 1: GSM8K, HumanEval- AssistantLM: GPT-4o
- UserLM์ user๋ก ๋๋ฉด assistant๊ฐ 74.6%์์ 57.4%๋ก ๊ธ๋ฝ
- ์ฆ GPT๊ธฐ๋ฐ user simulator๋ ๋๋ฌด ์น์ ํ๋ฏ๋ก assistantLM์ ์ ๋ฆฌํ ํ๊ฒฝ์ ์ ๊ณต
- Simulation Behavior
tab 3: UserLM์ real user์ฒ๋ผ ์ ๋ณด๋ฅผ ๋ฐ๋ณตํ๊ณ ์ถ๊ฐ constraints๋ฅผ ๋ฃ๊ณ lexically diverseํ๊ณ turn ๊ธธ์ด๋ ๋ค๋ณํ
Personal note.
- ์ฃผ์ ์ ์ ๋ฐ ๊ต์ ์ ์๊ฐ ๊ฒน์น ๊ฒ์ผ๋ก ๋ณด์ instruction์ multi-turn์ผ๋ก shardํด์ ์ฃผ๋ฉด ๋ ๋ชปํ๋๋ผ๋ MS ๋ ผ๋ฌธ์ ํ์(ํน์ ์ง์ง ํ๊ณ ์ถ์๋ ์ฐ๊ตฌ์ ๋ฐฉํฅ)์ผ๋ก ๋ณด์ ๋๋ค.
- ์ค์ ์ ์ ๋ ์ฒ์๋ถํฐ ์ ๋ณด๋ฅผ ๋ค ์ฃผ์ง ์๋๋ฐ, ํ์ฌ ๋ฒค์น๋งํฌ๋ ๋ค์ํ ์คํ๋ค์ assistant ์นํ์ ์ผ๋ก ์ ๋ณด๋ฅผ ๋ค ์ฃผ๊ณ ์์ํ๊ฑฐ๋, ์ค์ ์ฌ์ฉ ํ๊ฒฝ(multi-turn ํ๊ฒฝ)์ ์ฌํํด๋ด์ง ๋ชปํ๋ค๊ณ ์ง์ ํ ๊ฒ๋ ํ๋นํ๊ณ
- ๋ฐฉ์์ ๋ฌด์ฒ ๋จ์ํ์ง๋ง; human ์ญํ ๋ฐ์ดํฐ๋ฅผ instruct์ ๋ ๋ชจ๋ธ์ ํ์ต์ํค๊ธฐ ๋ถ์ ๊ฒฐ๊ณผ๊ฐ ๋งค์ฐ ๋ถ๋ช ํ ๊ฒ ํฐ ๋งค๋ ฅ์ผ๋ก ๋ค๊ฐ์ต๋๋ค.
- HCI์ ์์ญ์ ์ด์ง ๋น๊ฒจ์ Human-machine dialogue๋ฅผ ์ฐ๊ตฌํ ๋ ๊ทผ๋ณธ์ ์ผ๋ก ์ง์ ํ๊ณ ๋์ด๊ฐ์ด์ผ ํ๋ ๋ฌธ์ ๋ฅผ ์ง์ ๊ฒ ๊ฐ์์ ์ธ์๊น๊ฒ ์ฝ์์ต๋๋ค.
- ์ง๋ ๋ฉ๋ฏธํ ์์ ๊ต์๋๊ป์ ๋ง์น ์ง๊ธ LLM์ผ๋ก ๋ฐ์ดํฐ ์์ฑํ๊ณ ๊ฒํ ํ๋ ๊ฒ์๋ ์๋ฌด ๋ฌธ์ ๊ฐ ์๋ ๊ฒ์ฒ๋ผ ์ฐ๋ค๊ฐ ๋ฌธ์ ๋ฅผ ์ ๊ธฐํ๊ฑฐ๋ ์คํ์์ ๋ณด์ด๊ณ ์ ํ๋ ๊ฒ์ ๊ทธ๋ฐ LLM๋ค์ด ๋ชปํ๋ค๊ณ ์ฃผ์ฅํ๋ ํ์ฌ ์ฐ๊ตฌ ํ๋ฆ์์ ํ๊ณ๊ฐ ๋๊ปด์ง๋ค๊ณ ํ๋ ๊ฒ๋ ๊ธฐ์ต์ด ๋๊ณ ์.
- dialogue๋ฅผ ์์ฑํ ๋ ์ ์ตํ๊ฒ ์ฌ์ฉํ ์ ์์ง ์์๊น ์ถ์ ํ๋ฆ์ ๋๋ค.