Learning User Preferences Through Interaction for Long-Term Collaboration
- Authors: Shuhaib Mehri, Priyanka Kargupta, Tal August, Dilek Hakkani-Tur
- Paper: https://arxiv.org/pdf/2601.02702
- Affiliation: UIUC
- Published: January 6, 2026
- Code: https://github.com/Shuhaibm/multisessioncollab
TL; DR
multi-turn interaction์์ user์ explicit preference๋ฅผ memory๋ก ํ์ตํ๋ฉด ๋จ์ Recall-based memory๋ณด๋ค long-term collaboration(์ฑ๊ณต๋ฅ /ํจ์จ/user burden)์ด ์ ์ํ๊ฒ ๊ฐ์ ๋๋ค.



Background
- long context != long-term memory + memory != recall
- ๊ธฐ์กด) ๊ณผ๊ฑฐ ์ ๋ณด๋ฅผ ๊ธฐ์ตํ๋์ง, ๊ณผ๊ฑฐ ์ค์ ์ ์ผ๊ด์ฑ์ด ์๋์ง๋ง ํ์ธ
- ๋จ์ผ Session์์ preference elicitation๋ง์ผ๋ก๋ long-term collab.์ ๋ถ์กฑ
Problem States
memory๊ฐ ์ค์ collab.์ ๋์์ด ๋์๋๊ฐ?๋ฅผ ํ์ธํ์.
- ์ ์ ) ์ข์ memory = ์ ๋ณด๋ฅผ ๋ง์ถ๋ ๊ฒ = ์ฌ์ฉ์ ์ธ์ง ๋ถ๋ด์ ์ค์ด๊ณ collab. ํจ์จ์ ๋์ด๋ ๊ฒ
Suggestions
- MultiSession Collab
- task: MATH-500/MATH-Hard, LogiQA, MMLU, MedQA, ..
- ์ฌ์ฉ์๋ multi-session์ ๊ฑธ์ณ ํ๋์ ๋ฌธ์ ๋ฅผ ํ๊ณ , ๊ทธ์ ๋ํ draft answer๋ฅผ ํผ์ ๊ด๋ฆฌ (agent๋ ๋ชป ๋ด)
- agent ์๋ต์ด ์ ์ตํ๊ณ ์ ํธ์ ๋ถํฉํ ๋๋ง draft๊ฐ ์ ๋ฐ์ดํธ๋ ๊ฒ
- ==์ ํธ์ ๋ถํฉํ์ง ์์ผ๋ฉด, ์๋ฌด๋ฆฌ ์ ๋ต์ด๋๋ผ๋ ๋ฐ์๋์ง ์์ ๊ฒ
- Persona Hub์์ ์จ persona์ ๋ํด ๋ฑ 3๊ฐ์ interaction preference ๊ตฌ์ถ
- ์ด ๋ preference๋ ์ฌ๋ฆฌํ ๋ฐ HCI ๊ธฐ๋ฐ taxonomy๋ฅผ ๋ฐ๋ฆ (Appendix A)
- e.g. ๋ถํ์ํ ์๋ ์ง์; high-level ์ค๋ช ์ ์ ์ ์ ํธ; step-by-step ์๋ต ์ ํธ or ํ๋ฒ์ ์๋ต ์ ํธ; proactive suggestion์ ๋ํ ์ง์; TLDR/bullet/confidence ์๊ตฌ ๋ฑ
- ์ด์ฐ์ ์ผ๋ก ์ค๊ณ๋ preference๋ผ๋ ์ ์ ํ๊ณ๋ก ์ง์ ๋ ๋ฏ
- single session simulation
- user: ๋ฌธ์ ๋ฅผ ๋ถ์์ ํ๊ฒ ์ค๋ช ํ๊ณ ์ผ๋ถ๋ฌ ์ ๋ณด๋ฅผ ๋ ์ค (clarifying question ์ ๋)
- agent: ์ง๋ฌธํ๊ฑฐ๋ ์ค๋ช ํ๊ธฐ๋ฅผ ์๋
- ๋ค์ user: (๋ด๋ถ์ ์ผ๋ก ํ๋จํ๊ธธ) ๋ฐฉ๊ธ agent์ ์๋ต์ด Preference๋ฅผ ๋ง์กฑํ๋์ง ์ฌ๋ถ๋ฅผ ํ๋จ
- ๋ง์กฑํ์ง ์์ ๊ฒฝ์ฐ preference๋ฅผ enforceํ๋ ๋ฐํ๋ฅผ ์ฃผ๊ณ == ํ์ต ์ ํธ๋ก ๊ฐ์ฃผ
- ๋ง์กฑํ ๊ฒฝ์ฐ draft answer ์ ๋ฐ์ดํธ
- terminate ์กฐ๊ฑด ํ์ธ: ์ต๋ 10-turn, ํน์ user ๋ง์กฑ์ ์ข ๋ฃ
- Memory: Session ๋จ์ Reflection:
- ๋งค session ํ ์ด๋ค ์ ํธ๊ฐ ๋๋ฌ๋ฌ๊ณ , ์ด๋ป๊ฒ ๋ง์กฑ์์ผ์ผํ๋์ง๋ฅผ ์์ฝ -> memory update
- ๋ค์ session ์์์ ์ ์ฒด ๋ฉ๋ชจ๋ฆฌ ์ ๊ณต, ๋งค turn๋ง๋ค ํ์ฌ ๋ํ์ relevantํ memory๋ง retrieval
- RL: response๋ฅผ ์ง์ ํ์ตํ์ง ์๊ณ , reflection์ด ์ผ๋ง๋ preference๋ฅผ ์ ํฌ์ฐฉํ๋์ง reward
- reward: coverage + format
- user-enforced ์ ํธ๊ฐ ์ ๋๋ก ํฌ์ฐฉ๋๋์ง + ๊ตฌ์กฐ์ ์ผ๋ก ์ ์ ๋ฆฌ๋๋์ง
- response ๊ฐ์ ์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ํตํด ๊ฐ์ ์ ์ผ๋ก ๋ฐ์ํ๋ค๊ณ ๊ฐ์ฃผ
- reward: coverage + format
Effects
- metrics: ์ฌ์ฉ์ ์ธ์ง ๋ถํ์ ๋ํ ์ธก์ ์งํ ์ ์
- Task Success: final draft์ ์ ํ๋
- User Effort: ์ฌ์ฉ์๊ฐ ์ ํธ๋ฅผ ๊ฐ์ ์กฐ์ ํ ํ์
- Conversation Length: ๋ํ ๊ธธ์ด
- Results: memory ์ถ๊ฐ์ user burden ๊ฐ์ + GRPO๋ก reflection ํ๋ จ์ task success ๊ฐ์ ๊ฐ๋ฅ
- memory ๊ธฐ๋ฐ agent๊ฐ oracle preference๋ฅผ ์ ๊ณตํ agent์ ๊ฑฐ์ ๋์ผํ ์์ค์ ์ฑ๋ฅ ๋ฌ์ฑ
- oracle์ ์ ํธ์ ๋ํ ์ค๋ช ๋ง ์ฃผ์ง๋ง, ๋ฉ๋ชจ๋ฆฌ๋ context / application ๋งฅ๋ฝ๊น์ง ๋์ ํด์ ๋ ์ ์ตํ๋ค๊ณ ๋ถ์
- ์ด๋ฐ 1~5 session๊น์ง ๊ฐ์ ์ด ๋๋๋ฌ์ง๊ณ , ์ดํ ์์ ํ
- user effort ๊ฐ์ ์ด task success๋ณด๋ค ํผ = ๋ํ๊ฐ ํธํด์ง ํ์ ์ฑ๋ฅ์ด ๊ฐ์ ๋จ
- human interaction ์คํ:
- 19 ๋ช ์๊ฒ 3๊ฐ session์ ๋ํด conding-only ํน์ mixed-domain ์คํ, ์ฃผ๊ด์ฑ ํ๊ฐ (preference adherence, memory, confidence, satisfaction ,,,)
- ๋ฉ๋ชจ๋ฆฌ๊ฐ ์์๋ ๋ ์ฐ์ํ์ง๋ง, mixed-domain generalization ํจ๊ณผ๋ ๋ฏธ๋ฏธํ๊ณ
- ์ฌ์ฉ์๊ฐ ์ ํธ๋ฅผ ๋งํด์ฃผ๋ฉด ๊ทธ๊ฒ ๋ ํจ๊ณผ์
- memory ๊ธฐ๋ฐ agent๊ฐ oracle preference๋ฅผ ์ ๊ณตํ agent์ ๊ฑฐ์ ๋์ผํ ์์ค์ ์ฑ๋ฅ ๋ฌ์ฑ
Personal note. ์ฌ๋ฌ๋ชจ๋ก ์ ํฌ๊ฐ ์ด๋ฒ์ ๋ธ ํ์ดํผ์ ๋ง์ ์ง์ ์ ๊ณต์ ํ๊ณ ์์ต๋๋ค. ๋ฉ๋ชจ๋ฆฌ์ ๋ญ ๋ด์๊ฑฐ๊ณ , ๊ทธ๊ฒ ์ด๋ป๊ฒ ํ๋นํ์ง๋ฅผ ๋ฐํ๋๊ฒ ์ด ์ฐ๊ตฌ์ ์ ํฌ ์ฐ๊ตฌ ๋ชจ๋์ ๊ณ ๋ฏผ์ธ ๊ฒ ๊ฐ๊ณ , ๋ค๋ง ์ด ์ฐ๊ตฌ์์๋ ์ ์ feedback์ RL ํ์ต signal๋ก ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ๋ค์ generalizability์ ํ๊ณ๋ฅผ ๋ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค. (์ค์ mixed-domain ์ฑ๋ฅ ํ๋ฝ ์ญ์ ๊ฐ์ ๋งฅ๋ฝ์ผ๋ก ๋ณด์) ์ฃผ์ ๊ฐ์ ์ด๋ ์ ์ ์์ฒด๊ฐ ์ ํฌ ์ฐ๊ตฌ๋ ๋งค์ฐ ์ ์ฌํ์ง๋ง ํด๊ฒฐํ๊ณ ์ํ ๋ฐฉํฅ์ ์ด์ง ๋ฌ๋ผ์ ์ข ๋ ๋ฉด๋ฐํ ์ดํด๋ณด๊ฒ ์ต๋๋ค. (ํ ์ด๋ธ์ ๊ฒฐ๊ณผ ๋ฆฌํฌํธ ๋ฐฉ์์ด ์ด๋ฒ์ ๊ณ ๋ฏผํ๋ ๋ฐฉ์์ผ๋ก ํ๊ธฐ๋๊ฒ ์ฌ๋ฐ๋ค์)