Scaling Laws for Reward Model Overoptimization
Meta info.
- Authors: Leo Gao, John Schulman, Jacob Hilton
- Paper: https://arxiv.org/pdf/2210.10760
- Affiliation: OpenAI
- Published: October 29, 2022
- Conference: PLMR2023
TL; DR
RM์ผ๋ก Policy model์ ํ์ตํ๋ฉด ํ์ตํ ์๋ก real (human) preference์ ๊ฒฉ์ฐจ๊ฐ ๋ฒ์ด์ง๋ overoptimization์ด (๋ฐ๋์) ๋ฐ์๋๋ฉฐ, ์ด ํ์์ ๋๋ฌ์ ๋ฆ์ถ๋(?) ๋ฐ์๋ RM์ ์ฌ์ด์ฆ๋ฅผ ํค์ฐ๋๊ฒ ์ ์ํ ์ํฅ์ ๋ผ์น๋ ๊ฒ์ผ๋ก ๋ณด์.



Effects
- setup
- human data (real performance) ๋ก ํ์ตํ RM์ Gold RM์ผ๋ก
- ์ด์ ๋ํด synthetic data๋ก ํ์ตํ RM์ Proxy RM์ผ๋ก ๊ฐ์
- ์ฆ ์ ์๋ฅผ gold๋ก ๊ฐ์ ํ์ฌ, initial Policy ๋ชจ๋ธ์ Proxy RM์ผ๋ก RL์ด ์งํ๋ ์๋ก (KL distance๊ฐ ์ฆ๊ฐํ ์๋ก) ๋ฒ์ด์ง๋ ๊ฒฉ์ฐจ์ ๋ํ emperical ์ฐ๊ตฌ
- results
- RM์ ์ฌ์ด์ฆ๋ฅผ ํค์ฐ๋๊ฑด ํ์์ ๋ฆ์ถ๋ ๋ฐ์๋ ๋์์ด ๋๋
- RM ์ฌ์ด์ฆ ๊ณ ์ ํ๊ณ RL์ ์ฌ์ฉ๋๋ ๋ฐ์ดํฐ ์ฌ์ด์ฆ๋ ๋ฑํ scaling law๊ฐ ๋ฐ๊ฒฌ๋์ง ์์๊ณ
- ๋ค๋งํน์ ์์ค์ผ๋ก data size๊ฐ ๋์ด๊ฐ๋ฉด RM validation loss ๊ฐ ๊ฐ์ํ๋๋ฐ,
- Proxy RM size๋ data size์ ๋ฌด๊ดํ๊ฒ, RM์ด ๋น์ทํ validation loss๋ฅผ ๊ฐ์ง๋ฉด ๋น์ทํ gold score (=ํ์ต์์ค) performance๋ฅผ ๋ธ๋ค๊ณ (
..?๋น์ฝ์ด ๋๋ฌด ์ฌํ๊ฑฐ๊ฐ์๋ฐ)
- Policy model size (=LM)์ ๋ํด์๋ ์์ ๋ชจ๋ธ์ผ์๋ก ๋ ์ต์ ํ๋ก ์ป๋ ํจ๊ณผ๊ฐ ๋ ํฌ๋ค๊ณ .
- Gold score ๊ธฐ์ค RL > Best of N ( Rejection Sampling )ย
ํ์ต์ ๋ํด์ผ๊ฒ ์ง๋ง,,