A Survey on Personalized and Pluralistic Preference Alignment in Large Language Models
- Authors: Zhouhang Xie, Junda Wu, Yiran Shen, Yu Xia, Xintong Li, Aaron Chang, Ryan Rossi, Sachin Kumar, Bodhisattwa Prasad Majumder, Jingbo Shang, Prithviraj Ammanabrolu, Julian McAuley
- Paper: https://arxiv.org/pdf/2504.07070
- Affiliation: Adobe Research, Allen Institute for AI, Ohio State University, UCLA, University of California San Diego
- Published: April 9, 2025
TL; DR
LLM์์์ ๊ฐ์ธํ/๋ค์์ ์ ํธ ์ ๋ ฌ์ training/test-time, ์ฌ์ฉ์ ๋ชจ๋ธ๋ง ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ผ๋ก ์ฒด๊ณํ, ํ๊ฐ ๋ฐ ํ์ฅ์ฑ ์ธก๋ฉด์ ๊ตฌ์กฐ์ ํ๊ณ ํ์ธ

Background
- ์ต์ LLM alignment ์ฐ๊ตฌ๋ ๋์ฒด๋ก ํ๊ท ์ ์ธ ์ธ๊ฐ ์ ํธ์ ๋จ์ผํ ๊ฐ์น๋ฅผ ๊ฐ์
- ๋ฐ๋ฉด real-world ์ธ๊ฐ ์ ํธ๋ heterogeneousํ๊ณ contextualํ๋ฉฐ non-stationary ํ๋ค๊ณ ์ง์
- user modeling, persona roleplaying, recommendation ์ personalization๊ณผ ์ง์ ์ฐจ์ด
Problemย States
๋ชจ๋ธ ์ถ๋ ฅ์ user๊ฐ ์ ํธํ๋ ๋ฐฉํฅ์ผ๋ก alignmentํ๊ธฐ
- ๋จ์ prompt ์์ค์ ์ฃผ์ ์ด์์ผ๋ก User ๋ณ policy optimization์ผ๋ก ๋ฌธ์ ์ ์
- personalized reward function: ์ ๋ ฅ x, ์ถ๋ ฅ y, context c์ ๋ํด r(x, y, u): X \times Y \times U
- objective: \pi_u^* = \arg\max_{\pi_u} \mathbb{E}_{x, y \sim \pi_u}[r(x,y,u)]
Suggestions
3๋ถ๋ฅ ์ ์
- training time alignment: user๋ณ ํ๋ผ๋ฏธํฐ๋ฅผ ํ์ตํ๋ค
- implicit preference๋ฅผ ํ์ตํ ์ ์์ง๋ง,
- ํ๋ผ์ด๋ฒ์๋ ์ฌ์ฉ์๋ณ feedback ์์ง์ ์ด๋ ค์ ๋ฑ ์ ๋ฐ์ดํธ ๋น์ฉ์ ๋ฌด๋ฆฌ
- user embedding
- adapter / PEFT
- steering vector
- user-specific head
- preference expert mixture
- ๋ค์ค reward model โฆ
- inference-time alignment
- prompt ๊ธฐ๋ฐ
- retrieval, prompt rewrite, IC preference rule
- ํ์ต ๋ถ์ํ ์ ์ ์ ์ตํด๋ณด์ด์ง๋ง,
- context window์ ์ข ์์ ์ด๊ณ preference๋ฅผ ์ ์ ์ผ๋ก ๋ณด๊ธฐ๋๋ฌธ์ ์ฅ๊ธฐ์ ๊ฐ์ ์ ์ทจ์ฝ
- reward / value guided decoding
- ํ ํฐ๋จ์ reward ๋ฐ์
- MCTS, autoregressive reward, โฆ
- ๋ฏธ์ธํ ์ ์ด๊ฐ ๊ฐ๋ฅํ๊ณ ๋ช ์์ objective๋ก ์ต์ ํ๊ฐ ๊ฐ๋ฅํ์ง๋ง
- ๋น์ฉ๋ฉด์์ ํจ์จ์ด ๋ฎ๊ณ reward model ์ ์ข ์์ ์ผ๋ก real-time ์ ์ฉ๋ ์ด๋ ค์
- logit rectification / re-alignment
- LLM์ small aligned model ๊ฒฐํฉ
- decoding์์ logit ์์
- ๊ฐ๋ณ๊ณ ์ ์ฒด๋ฅผ ์ฌํ์ตํ ํ์ ์๊ฒ ์ง๋ง small model ํ์ง์ ์ข ์์ ์ด๊ณ ์ปค๋ฒํ ์ ์๋ preference ๋ฒ์๋ ์ ํ์
- prompt ๊ธฐ๋ฐ
- user modeling (alignment๋ ์๋์ง๋ง,, ์ฃผ์ ๋ณด์กฐ ์ถ์ผ๋ก์จ user ๋ง์กฑ๋ ํฅ์์ ๊ธฐ์ฌํ๋ฏ๋ก ํ์ธ)
- e.g. memory-based agents, long-term user facts, persona simulation (teacher, therapist, etc.)
- user ํ๋ ์์ธก์ด ๋ฐ๋์ ์ ์ ๋ง์กฑ์ ๊ธฐ์ฌํ์ง ์์์ ๋ํ ํ๊ณ ์ง์
Effects
- experiments setup
- ๋ฐ์ดํฐ์
ํํฉ: ๋๋ถ๋ถ ํฉ์ฑ๋ฐ์ดํฐ์
- style ์ฐจ์์ด๊ฑฐ๋ persona-conditioned generation, LLM-based user simulation ์์ค
- real-user๋ฐ์ดํฐ๋ ๊ท๋ชจ๋ ์๊ณ ๋น์ฉ๋ ํฌ๋ฉฐ ๋ฌธํ ํธํฅ์์๋ ์ง์
- ํ๊ฐ๋ฐฉ์: pairwise ranking์ด๊ฑฐ๋ LAAJ
- metric์ด ํต์ผ์ฑ ์๊ณ ๋ฒค์น๋งํฌ๊ฐ ๋น๊ต๋ ๋ถ๊ฐ
- ์ ํธ ๊ตฌ์กฐ๋ฅผ โ๊ฐ์ โํ ํ๊ฐ
- ๋ฐ์ดํฐ์
ํํฉ: ๋๋ถ๋ถ ํฉ์ฑ๋ฐ์ดํฐ์
- Future work
- online / continual personalization: multi-session, non-stationary preference
- ๋ณต์กํ๊ณ ๊ธด value์ ๋ํ ์ง์ : instruction-following ๋ถ๊ดด ๋ฌธ์
- feedback ํฌ์์ฑ; ๊ฐ์ธ ๋จ์ ํ์ต์ ๊ตฌ์กฐ์ ํ๊ณ
- ํ๋ผ์ด๋ฒ์ & ์ฐํฉํ์ต: federated personalization์ ๋ฏธ์ฑ์
Personal note. ์ต๊ทผ memory, preference ๋ฑ์ ํค์๋๋ก ์ฐ๊ตฌํ๋ฉด์ ์ง์๋ ๊ฑฐ์ ์ ๋ฐ์ ํค์๋๋ฅผ ์ธํธ๋ก๋ถํฐ ๋ชจ๋ ํฌํจํ๋ ๊ฒ์ผ๋ก ๋ณด์ฌ์ ์ฃผ์ ๊ด์ฌ ๋ถ๋ฌธ ์์ฃผ๋ก ํ์ธํ์ต๋๋ค. ์ง๋ ๊ธ์์ผ ๋ฐ์๋ ์ง๋ฌธ์์ preference์ personalization ๊ด๋ จํ ๋ถ๋ถ ์ฐจ์ด๋ฅผ ์ธ๊ธํ๊ธฐ๋ ํ๊ณ ์. ๋ฐฉํฅ์ ๋ํ ์์ ์ธก๋ฉด์์ ์ด ํ์ดํผ์ ์ธํธ๋ก์์ ๋์์ ๋ฐ์ ์๋ ์์ ๊ฒ ๊ฐ๊ณ , ์๋ฌด๋๋ ํ์ฌ ์งํํ๊ณ ์๋ ์ฐ๊ตฌ๋ inference-time์ prompt ๊ธฐ๋ฐ ๋ฐฉ์์ ๋ถ๋ฅ์ ์ํ๊ณ ์๋๋ฐ์, ์ด ์ฐ๊ตฌ๊ฐ ๊ฐ์ง ํ๊ณ ์ญ์ ์๊ฐ๋๋ฆฌ๋ ์๋ฒ ์ด ํ์ดํผ์ ํ๊ณ์์ ์ง๋ ์์ค์ ํฌํจ๋๋๋ฐ, ๋น์ฐํ์ง๋ง ์กฐ๊ธ ๋ ๋๋ํ๊ฒ ํด๊ฒฐ์ ๊ณ ๋ฏผํด๋ณด๊ฒ ์ต๋๋ค.