Adversarial Policy Optimization for Offline Preference-based Reinforcement Learning
Meta info.
- Authors: Hyungkyu Kang, Min-hwan Oh
- Paper: https://arxiv.org/pdf/2503.05306
- Affiliation: SNU
- Published: March 7, 2025
- Conference: ICLR2025
TL; DR
PbRL์ ์ํ ์ ๋์ ์ ํธ๊ธฐ๋ฐ ์ต์ ํ ๋ฐฉ๋ฒ๋ก APPO ์ ์


Background
์ธ๊ฐ์ preference feedbackํ์ฉํ๋ฉด RL์์ reward design์ด ์ด๋ ต๋ค๋ ํ๊ณ๋ฅผ ๊ทน๋ณตํ ์ ์๋๋ผ
Problem States
humanย feedback์ด ๋น์ธ๊ณ ์ค์๊ฐ์ผ๋ก(online) ๋ฐ๊ธฐ๋ ์ด๋ ค์ฐ๋ฉฐ, Offline PbRL์์๋ ๋ณด์์ฑconservatism ํ๋ณด๋ฅผ ์ํด์ ์ ๋ขฐ๊ตฌ๊ฐ ๊ณ์ฐ์ ํด์ฃผ๋๋ฐ ๊ณ์ฐ์ ์ผ๋ก ๋ณต์กํจ
- Research Question: ๊ณ์ฐ ํจ์จ์ด๋ (confidence set ์์ด๋) ๋ณด์์ฑ ๋ค ์ฑ๊ธฐ๋ offline PbRL ์์๊น
Suggestion
APPO
- PbRL์ ์ ์ฑ
(policy)๊ณผ reward ๋ชจ๋ธ ๊ฐ 2์ ๊ฒ์(two-player game)์ผ๋ก ์ฌ๊ตฌ์ฑ
- leader (policy model, ฯ): maximize preference score, TRPO
- follower (reward model, r): ๋ณด์์ ์ธ reward model์ adversarial optimization
- leader๊ฐ ๋๋ฌด ๋ถํ์คํ ๊ณณ์์ ํํํ์ง ์๋๋ก ์ ์ฝ
- ์ด๋ก ์ ์ผ๋กย ์ํ ๋ณต์ก๋๋ฅผ ์ฆ๋ช
ํ์ฌ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ณด๋ค ๊ณ์ฐ ํจ์จ์ฑ์์ ์ด๋
- feedback ์๊ฐ ์ ์ด๋ optimized policy ํ์ต ๊ฐ๋ฅ
Effects
์คํ์ ์ผ๋กย continuous control ํ๊ฒฝ์์ ์ต์ ๋ฐฉ๋ฒ๋ก ๊ณผ ๋น๋ฑํ๊ฑฐ๋ ๋ ๋์
- target task: Meta-World Benchmark
- baseline: Markovian reward, preference transformer, dppo, ipl(inverse preference learning)
table1ย : # of feedback 500/1000 ๊ธฐ์ค์ผ๋ก ์๋ฌด์ชผ๋ก appo๊ฐ ๋ชจ๋ ์คํ์์ ๊ฐ์ฅ ๋์ ํ๊ท ์์ ๊ธฐ๋ก
Personal note. ์๋ถ๋ถ์ ์๊ฐํ๋ preliminary๊ฐ ์ถฉ๋ถํ ์น์ ํด์ ์ ๋ฆฌํ๋ ๋๋๋ ๋ฐ์์ ์์ํ๋๋ฐ ์ด๋ก ์ ์ธ ํ๋ฆ ์์ฃผ๋ผ ๋ฌด์ฒ ๊ฑด์กฐํ ํธ์ด๊ธด ํ๋ค์. ์ฐจ๊ทผํ ๋ฐ๋ผ๊ฐ๋ฉด ๋ชจ๋ ์ด๋ก ์ ์๋ฒฝํ๊ฒ ์ดํดํ์ง๋ ๋ชปํ์ง๋ง ํ์ด์ปจ์ ์์ ์๋์ ๋ชฉ์ ๊ฒฐ๊ณผ๋ฅผ ์ดํดํ ์๋ ์์์ต๋๋ค.