A Survey on Personalized and Pluralistic Preference Alignment in Large Language Models

December 29, 2025 2 minute read

Meta info.

Authors: Zhouhang Xie, Junda Wu, Yiran Shen, Yu Xia, Xintong Li, Aaron Chang, Ryan Rossi, Sachin Kumar, Bodhisattwa Prasad Majumder, Jingbo Shang, Prithviraj Ammanabrolu, Julian McAuley
Paper: https://arxiv.org/pdf/2504.07070
Affiliation: Adobe Research, Allen Institute for AI, Ohio State University, UCLA, University of California San Diego
Published: April 9, 2025

TL; DR

LLM에서의 개인화/다원적 선호 정렬을 training/test-time, 사용자 모델링 기반 방법으로 체계화, 평가 및 확장성 측면의 구조적 한계 확인

Background

최신 LLM alignment 연구는 대체로 평균적인 인간 선호와 단일한 가치를 가정
반면 real-world 인간 선호는 heterogeneous하고 contextual하며 non-stationary 하다고 지적
user modeling, persona roleplaying, recommendation 의 personalization과 질적 차이

Problem States

모델 출력을 user가 선호하는 방향으로 alignment하기

단순 prompt 수준의 주입 이상으로 User 별 policy optimization으로 문제 정의
personalized reward function: 입력 x, 출력 y, context c에 대해 r(x, y, u): X \times Y \times U
objective: \pi_u^* = \arg\max_{\pi_u} \mathbb{E}_{x, y \sim \pi_u}[r(x,y,u)]

Suggestions

3분류 제안

training time alignment: user별 파라미터를 학습한다
- implicit preference를 학습할 수 있지만,
- 프라이버시나 사용자별 feedback 수집의 어려움 등 업데이트 비용에 무리
- user embedding
- adapter / PEFT
- steering vector
- user-specific head
- preference expert mixture
- 다중 reward model …
inference-time alignment
- prompt 기반
  - retrieval, prompt rewrite, IC preference rule
  - 학습 불요한 점은 유익해보이지만,
  - context window에 종속적이고 preference를 정적으로 보기때문에 장기적 개선에 취약
- reward / value guided decoding
  - 토큰단위 reward 반영
  - MCTS, autoregressive reward, …
  - 미세한 제어가 가능하고 명시적 objective로 최적화가 가능하지만
  - 비용면에서 효율이 낮고 reward model 에 종속적으로 real-time 적용도 어려움
- logit rectification / re-alignment
  - LLM에 small aligned model 결합
  - decoding에서 logit 수정
  - 가볍고 전체를 재학습할 필욘 없겠지만 small model 품질에 종속적이고 커버할 수 있는 preference 범위도 제한적
user modeling (alignment는 아니지만,, 주요 보조 축으로써 user 만족도 향상에 기여하므로 확인)
- e.g. memory-based agents, long-term user facts, persona simulation (teacher, therapist, etc.)
- user 행동 예측이 반드시 유저 만족에 기여하진 않음에 대한 한계 지적

Effects

experiments setup
- 데이터셋 현황: 대부분 합성데이터에
  - style 차원이거나 persona-conditioned generation, LLM-based user simulation 수준
  - real-user데이터는 규모도 작고 비용도 크며 문화 편향에서도 지적
- 평가방식: pairwise ranking이거나 LAAJ
  - metric이 통일성 없고 벤치마크간 비교도 불가
  - 선호 구조를 “가정”한 평가
Future work
- online / continual personalization: multi-session, non-stationary preference
- 복잡하고 긴 value에 대한 진술: instruction-following 붕괴 문제
- feedback 희소성; 개인 단위 학습의 구조적 한계
  - 프라이버시 & 연합학습: federated personalization의 미성숙

Personal note. 최근 memory, preference 등의 키워드로 연구하면서 짚었던 거의 전반의 키워드를 인트로부터 모두 포함하는 것으로 보여서 주요 관심 부문 위주로 확인했습니다. 지난 금요일 받았던 질문에서 preference와 personalization 관련한 부분 차이를 언급하기도 하고요. 방향에 대한 서술 측면에서 이 페이퍼의 인트로에서 도움을 받을 수는 있을 것 같고, 아무래도 현재 진행하고 있는 연구는 inference-time의 prompt 기반 방식의 분류에 속하고 있는데요, 이 연구가 가진 한계 역시 소개드리는 서베이 페이퍼의 한계에서 짚는 수준에 포함되는데, 당연하지만 조금 더 똑똑하게 해결을 고민해보겠습니다.