Direct Multi-Turn Preference Optimization for Language Agents
Meta info.
- Authors: Wentao Shi, Mengqi Yuan, Junkang Wu, Qifan Wang, Fuli Feng
- Paper: https://arxiv.org/pdf/2406.14868
- Affiliation: Meta AI, USTC
- Published: June 21, 2024
TL; DR
Multi-turn ์์ RL Objectives๋ฅผ ์ง์ optimizeํ๋ ์์คํจ์์ Direct Multi-Turn Preference Optimization (DMPO) ์ ์







Problem States
ETO์์ DPO loss๋ Single-turn ๋จ์ ์ ํธ์ ๋ํ ๊ฐํํ์ต์ด๋ฏ๋ก, multi-turn agent task (trajectory๊ฐ ์๋ ๊ฒฝ์ฐ)์๋ ์ ํฉํ์ง ์๋ค.
- ETOย :์คํจ trajectory ๋ชจ์์ contrastiveํ๊ฒ ํ์ตํ๋ ๋ฐฉ์์ผ๋ก optimizeํ๊ฒ ํ๋, ReAct ๋ฐฉ์์ผ๋ก trajectory ์์ฑ
- Research Question: multi-turn agent task๋ฅผ ์ํ optimization ๊ฐ๋ฐ
Suggestions
DMPO
- multi-turn ์์์ ์ต์ ํ๋ฅผ ์ํด (1) BT ๋ชจ๋ธ์ partition function Z(probability ์ ๊ทํ)๊ฐ ํ์ฌ ์ํ s๋ก๋ถํฐ ๋
๋ฆฝ์ด ๋์ด์ผ ํจ + (2) ์ ํธ/๋น์ ํธ trajectories ๊ฐ ๊ธธ์ด ๊ฒฉ์ฐจ์ ์ํฅ ์คํ๋ก ํธํฅ ์ค์ฌ์ผ ํจ
- state-action occupancy (SAOM) ์ ์ฉ:ย RL Objectives(
Eq 1)์์ Policy Constraints(Eq 3)์ย SAOM constraints(Eq 10)๋ก ๋์ฒดํ์ฌ compounding error ์ํ- problem:ย
Eq 3ย ์์ Z(s)๋ ํ์ฌ ์ํ s์ ์ข ์๋ ์ํ๋ก ์ ๊ทํโ ๋จ์ผ ํด์์๋ง ์ ํจํ ์ ๊ทผ - solution:ย
Eq 10ย ์์ SAOM constraints(d^{ฯโ}(s, a)ย )๋ก Z๋ s์์ ๋ ๋ฆฝ์ ์ผ๋ก ๊ณ์ฐ ๊ฐ๋ฅ โยEq 11
- problem:ย
- BT ๋ชจ๋ธ์ ๊ธธ์ด ์ ๊ทํ ๋์
: ์ ํธ trajectories์ ๋น์ ํธ trajectories๊ฐ ๊ธธ์ด ๋ถ์ผ์น ์ํ โ ํธํฅ ๋ฌธ์ ํด๊ฒฐ
Eq 2ย ์ multi-turn์ผ๋ก ํ์ฅํ๋ฉดยEq 12- problem: ์ ํธ trajectory ๊ธธ์ด T^w์ ๋น์ ํธ trajectory ๊ธธ์ด T^l์ด ๋ถ์ผ์น (๊ธธ์ด๊ฐ ๊ธธ์๋ก reward ํฉ์ด ์ปค์ง๋ ํธํฅ ๋ฐ์ > ๊ฒฉ์ฐจ ํ๋ > ๋ชจ๋ธ ์ฑ๋ฅ ์ ํ )
- solution:ย
Eq 13์ฒ๋ผ ์ ๊ทํ (T^w(์ ํธtrajectory ๊ธธ์ด)๊ฐ ๋ ๊ธด ๊ฒฝ์ฐ, T^w์ ๋ถ์ ์ ๊ทํ term์ด T^l์ ๋ถ์ term ๋๋น ์์ ๊ฐ์ด ๋๋ ์์ผ๋ก ๋ณด์ )
- state-action occupancy (SAOM) ์ ์ฉ:ย RL Objectives(
- ์ต์ข
ย
Eq 16๋ฅผ maximize:ยEq 13์๋ Z์ partition function์ดยEq 11์ reward function์ผ๋ก ๋์ฒด๋๋ฉด์ ์์ด์ง.- discount function ฯ(t, T): ๋ค์ํ ๋จ๊ณ์์ s-a pair์ ๊ฐ์ค์น ์ฌ์กฐ์ (์ด๊ธฐ ๋จ๊ณ์ s-a pair์ ๋ ๋์ ๊ฐ์ค์น)
Effects
- Experimental Setup:
- datasets: WebShop, ScienceWorld, ALFWorld (MDP๋ก ์ค๋ช ๊ฐ๋ฅ)
- backbone: Llama-2-7B-Chat, Llama-2-7B-Chat
- Results:
- (RQ1)ย noisy setting: DMPO์ ๊ฐ๊ฑด์ฑ + ํจ์จ์ฑ ํ์ธย ยปย
Table 2ย DPO ์ฑ๋ฅ ์ํ- noisy trajectory๋ฅผ ๋น์ ํธ trajectory๋ก ๋์ฒด ์คํ: ์ด๊ธฐ์ gold preference์ ๊ฐ์ค์น๋ฅผ ๋์ฌ์ ์ฐ์ ์ํ๊ณ ๋์ค ๋จ๊ณ์์ ๋ฐ์๋๋ ๋ ธ์ด์ฆ ์๋ ๊ฒฝ์ฐ์ ๋ํ ๊ฐ์ค์น ๋ฎ์ถ๋ ๋ฑ ๋ ธ์ด์ฆ์ ์ํฅ์ ์ํํ๊ณ ๋ชจ๋ธ์ ํฅ์๋ ์ผ๋ฐํ ์ฑ๋ฅ ํ์ธ
- (RQ2)ย clean setting: DMPO์ ์ฐ์์ฑ ํ์ธ
- baseline preference tuning ๋ฐฉ์ ๋๋น ์ฐ์ํ ์ฑ๋ฅ ํ์ธ
- (RQ1)ย noisy setting: DMPO์ ๊ฐ๊ฑด์ฑ + ํจ์จ์ฑ ํ์ธย ยปย
Personal note. ETOย paper ๋ด์ฉ์ ์ ๋ฉด์ผ๋ก ๋ฐ์๋ค์ด๋ฉด์ ์์ํ๊ณ ์์ด์ ํ์ธ ํ์ํด๋ณด์. target benchmark๋ค์ด ReAct ๊ธฐ๋ฐ์ผ๋ก ์ ๊ทผํ๋ ๊ฒ์ผ๋ก ๋ณด์ด๋๋ฐ, ์ค์ multi-turn setting ๊ณผ ์ผ๋ง๋ align๋๋์ง๊ฐ ํฅํ ์ฐ๊ตฌ๋ฐฉํฅ ์ก๋๋ฐ ์ฃผ์ํ๋ฏ