Learning User Preferences Through Interaction for Long-Term Collaboration

January 12, 2026 2 minute read

Meta info.

Authors: Shuhaib Mehri, Priyanka Kargupta, Tal August, Dilek Hakkani-Tur
Paper: https://arxiv.org/pdf/2601.02702
Affiliation: UIUC
Published: January 6, 2026
Code: https://github.com/Shuhaibm/multisessioncollab

TL; DR

multi-turn interaction에서 user의 explicit preference를 memory로 학습하면 단순 Recall-based memory보다 long-term collaboration(성공률/효율/user burden)이 유의하게 개선된다.

Paper of the day slide

MultiSessionCollab figure 1

MultiSessionCollab figure 2

Background

long context != long-term memory + memory != recall
- 기존) 과거 정보를 기억하는지, 과거 설정에 일관성이 있는지만 확인
단일 Session에서 preference elicitation만으로는 long-term collab.에 부족

Problem States

memory가 실제 collab.에 도움이 되었는가?를 확인하자.

전제) 좋은 memory = 정보를 맞추는 것 = 사용자 인지 부담을 줄이고 collab. 효율을 높이는 것

Suggestions

MultiSession Collab
- task: MATH-500/MATH-Hard, LogiQA, MMLU, MedQA, ..
- 사용자는 multi-session에 걸쳐 하나의 문제를 풀고, 그에 대한 draft answer를 혼자 관리 (agent는 못 봄)
  - agent 응답이 유익하고 선호에 부합할 때만 draft가 업데이트될 것
  - ==선호에 부합하지 않으면, 아무리 정답이더라도 반영되지 않을 것
- Persona Hub에서 온 persona에 대해 딱 3개의 interaction preference 구축
  - 이 때 preference는 심리학 및 HCI 기반 taxonomy를 따름 (Appendix A)
  - e.g. 불필요한 서두 지양; high-level 설명 선제시 선호; step-by-step 응답 선호 or 한번에 응답 선호; proactive suggestion에 대한 지양; TLDR/bullet/confidence 요구 등
  - 이산적으로 설계된 preference라는 점은 한계로 지적될 듯
- single session simulation
  - user: 문제를 불완전하게 설명하고 일부러 정보를 덜 줌 (clarifying question 유도)
  - agent: 질문하거나 설명하기를 시도
  - 다시 user: (내부적으로 판단하길) 방금 agent의 응답이 Preference를 만족했는지 여부를 판단
    - 만족하지 않은 경우 preference를 enforce하는 발화를 주고 == 학습 신호로 간주
    - 만족한 경우 draft answer 업데이트
  - terminate 조건 확인: 최대 10-turn, 혹은 user 만족시 종료
Memory: Session 단위 Reflection:
- 매 session 후 어떤 선호가 드러났고, 어떻게 만족시켜야하는지를 요약 -> memory update
- 다음 session 시작시 전체 메모리 제공, 매 turn마다 현재 대화에 relevant한 memory만 retrieval
RL: response를 직접 학습하지 않고, reflection이 얼마나 preference를 잘 포착했는지 reward
- reward: coverage + format
  - user-enforced 선호가 제대로 포착됐는지 + 구조적으로 잘 정리됐는지
  - response 개선은 메모리를 통해 간접적으로 발생한다고 간주

Effects

metrics: 사용자 인지 부하에 대한 측정 지표 정의
- Task Success: final draft의 정확도
- User Effort: 사용자가 선호를 강제 조정한 횟수
- Conversation Length: 대화 길이
Results: memory 추가시 user burden 감소 + GRPO로 reflection 훈련시 task success 개선 가능
- memory 기반 agent가 oracle preference를 제공한 agent와 거의 동일한 수준의 성능 달성
  - oracle은 선호에 대한 설명만 주지만, 메모리는 context / application 맥락까지 누적해서 더 유익했다고 분석
- 초반 1~5 session까지 개선이 두드러지고, 이후 안정화
  - user effort 개선이 task success보다 큼 = 대화가 편해진 후에 성능이 개선됨
- human interaction 실험:
  - 19 명에게 3개 session에 대해 conding-only 혹은 mixed-domain 실험, 주관성 평가 (preference adherence, memory, confidence, satisfaction ,,,)
  - 메모리가 있을떄 더 우수하지만, mixed-domain generalization 효과는 미미했고
  - 사용자가 선호를 말해주면 그게 더 효과적

Personal note. 여러모로 저희가 이번에 낸 페이퍼와 많은 지점을 공유하고 있습니다. 메모리에 뭘 담을거고, 그게 어떻게 타당한지를 밝히는게 이 연구와 저희 연구 모두의 고민인 것 같고, 다만 이 연구에서는 유저 feedback을 RL 학습 signal로 사용했기 때문에 다소 generalizability에 한계를 띌 것으로 보입니다. (실제 mixed-domain 성능 하락 역시 같은 맥락으로 보임) 주요 가정이나 전제 자체가 저희 연구랑 매우 유사하지만 해결하고자한 방향은 살짝 달라서 좀 더 면밀히 살펴보겠습니다. (테이블에 결과 리포트 방식이 이번에 고민했던 방식으로 표기된게 재밌네요)