SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training
Meta info.
- Authors: Tianzhe Chu, Yuexiang Zhai, Jihan Yang, Shengbang Tong, Saining Xie, Dale Schuurmans, Quoc V. Le, Sergey Levine, Yi Ma
- Paper: https://icml.cc/virtual/2025/poster/44633
- Affiliation: Google DeepMind, HKU, NYU, UC Berkeley, Univ. of Alberta
- Published: January 28, 2025
- Code: https://github.com/LeslieTrue/SFTvsRL
TL; DR
SFT๋ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์๊ธฐํ๋ค๋ฉด, RL์ Rule-based text/vision reasoning ๋ชจ๋์์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ฐฐ์ด๋ค.

Background
LLM post training ์ฐ๊ตฌ๋ ํ์ชฝ์ผ๋ก๋ง ์ด์ ์ ๋ง์ถฐ ์ฐ๊ตฌ๊ฐ ์งํ๋จ (๊ฐ ๋ฐฉ์์ด ์ผ๋ง๋ ์ผ๋ฐํ์ ์๊ธฐ๋ฅผ ์ํ๋๋ฅผ ํ์ธํ๋ ๋ฑ)
- SFT: format adaptation์ ์ํ static ๋ฐ์ดํฐ๋ก instruction tuning (FLAN, LIMA ๋ฑ) >ย ์๋ก์ด ๊ท์น/์๊ฐ์ ๋ณํ์๋ ์ฝํจ
- RL: Outcome-driven optimization (human feedback or proxy reward) (RLHF์ PPO ๋ฑ)
Problem States
SFT์ RL์ ๋ชจ๋ธ์ ์ผ๋ฐํ๋ฅผ ๊ฐ๋ฅด์น๋๊ฐ? ์๋๋ฉด ํ์ต๋ฐ์ดํฐ ์๊ธฐ๋ฅผ ๊ฐ๋ฅด์น๋๊ฐ?
- ํนํ multimodal ์ถ๋ก (text+vision)์ ์์ด ๊ท์น ๋ณ๊ฒฝ(Rule variant), ์๊ฐ ์ ๋ ฅ ๋ณ๊ฒฝ(Visual OOD variant)์ด ๋ฌ๋ผ์ก์ ๋ ์ผ๋ง๋ robustํ๊ฐ?
Suggestions
๋์ผํ ์กฐ๊ฑด์์ SFT์ RL์ ๊ฐ๊ฐย ์ผ๋ฐํ์ย ์๊ธฐ๋ฅผย ๋ถ๋ฆฌํด ์ ๋์ ์ผ๋ก ๋ถ์ํ์
- Goal: SFT์ RL์ ๋์ผ ์์ค์ training compute์์ ๋์ผ task์ ๋ํด, trainig์ ์๋ ์กฐ๊ฑด(=OOD)์ testํ ๋ ์ด๋ป๊ฒ ๋ฐ์ํ๋๊ฐ?
- ์๊ธฐ: ๋ชจ๋ธ์ด ํ๋ จ ๋ฐ์ดํฐ์์ ๋ณธ ํจํด๋ง์ ๊ทธ๋๋ก ์ฌํํ๋ ๊ฒ. surface form๋ง ๋ณต์
- ์ผ๋ฐํ: ์๊ธฐ๋ฅผ ๋์ด์, ์๋ก์ด ๊ท์น์ด๋ ์กฐํฉ์ ๋ํด ์์ฉํ ์ ์๋ ๊ฒ. ์๋ก์ด ์ํฉ์ ๋ํ ์ ์๋ฅ๋ ฅ์ ์ค์ .
- Tasks: ๊ฐ ํ
์คํฌ์ train-test ๋ถํฌ ์๋์ ์ผ๋ก ๋ถ๋ฆฌ, ์ ํ๋ฉด ์ผ๋ฐํ๋ฅผ ํ ์ ์๊ณ , ๊ทธ๋ ์ง ์์ผ๋ฉด ์๊ธฐ๋ง ํ ๊ฒ์ผ๋ก ๊ฐ์ฃผ
- #1ย GeneralPointsย (์ซ์ ์นด๋ 4์ฅ์ผ๋ก 24 ๋ง๋ค๊ธฐ)
- Rule variant: ๊ท์น ๊ฐ์ K๋ฅผ 10์์ 13์ผ๋ก ๋ณ๊ฒฝ (text)ย
GP-L - Visual OOD variant: ์นด๋ ์(โ ๏ธโฃ๏ธย >ย โฅ๏ธโฆ๏ธ) ๋ณ๊ฒฝ (vision)ย
GP-VL
- Rule variant: ๊ท์น ๊ฐ์ K๋ฅผ 10์์ 13์ผ๋ก ๋ณ๊ฒฝ (text)ย
- #2 V-IRLย (์ค์ ๊ฑฐ๋ฆฌ ์ด๋ฏธ์ง ๊ธฐ๋ฐ ๊ธธ์ฐพ๊ธฐ)
- Rule variant: ์ง์์ด ์ ๋๋ฐฉํฅ <โ ์๋๋ฐฉํฅ (text)ย
V-IRL-L - Visual OOD variant: NYC <โ ๋ค๋ฅธ ๋์(text + vision)ย
V-IRL-VL
- Rule variant: ์ง์์ด ์ ๋๋ฐฉํฅ <โ ์๋๋ฐฉํฅ (text)ย
- #1ย GeneralPointsย (์ซ์ ์นด๋ 4์ฅ์ผ๋ก 24 ๋ง๋ค๊ธฐ)
Effects
- ํ์ต ๊ตฌ์กฐ: SFT > RL ์์
- RL ๋จ๋ ์ ์คํจ: SFT ์์ด RL ๋จ๋ ์ผ๋ก ํ์ต ์ instruction-following ์์ฒด๊ฐ ์ ๋์ด์ ์คํ ์กฐ๊ฑด์์ ์ ์ธ
- RL์ multi-turn PPO + verifier reward ๊ตฌ์กฐ: verifier-based reward๋ก feedback ๋ฐ๋ณตํ๋(multi-turn) training
- VER(v_t^out) โ (r_t, v_t^ver): ์ธ๋ถ์ verifier๊ฐ ์ ๋ต์ ๋ง์ท๋์ง ์ง์ ํ๋จํ Signal์ reward๋ก ํ์ฉ
- v_t^out: ๋ชจ๋ธ ์ถ๋ ฅ, v_t^ver: ์์ฐ์ด ํน์ ๊ตฌ์กฐํ๋ Feedback message
- r_t: ๋ชจ๋ธ ์ถ๋ ฅ์ reward
- multi-turn: verifier๊ฐ ํ๋ ธ๋ค๊ณ ์๋ ค์ฃผ๋ฉด, ๋ชจ๋ธ์ ๊ทธ ํผ๋๋ฐฑ์ ๋ฐ์ํด์ ๋ค์ ํด์ ๊ฐ์ ์ ์๋ํ๋ ๊ตฌ์กฐ
- VER(v_t^out) โ (r_t, v_t^ver): ์ธ๋ถ์ verifier๊ฐ ์ ๋ต์ ๋ง์ท๋์ง ์ง์ ํ๋จํ Signal์ reward๋ก ํ์ฉ
- ๊ฐ step๋ง๋ค ์์ฑ > ๊ฒ์ฆ > ํผ๋๋ฐฑ ์๋ ด (sequential revision): ์์ฑ ์์ ํ๋ฅผ ์ํ ์์ฐจ์ ์ธ ํ๋กฌํํธ ์์
- metrics:
- Success Rate: ์ต์ข ๋ต ๋๋ฌ ๋น์จ
- Recognition Accuracy: ์ด๋ฏธ์ง์์ ์ซ์/๋๋๋งํฌ ์ธ์ ์ ํ๋
- Per-step accuracy: V-IRL์์ ์ง์ ๋ฐ๋ฅด๊ธฐ ์ ํ๋
- results:
- RL์ SFT ๋๋น ๋ชจ๋ task์์ OOD generalization ํฅ์
- Visual OOD ์กฐ๊ฑด์์๋ RL์ด consistentํ๊ฒ ์ฑ๋ฅ ์ฐ์
- SFT๋ visual reasoning token์ overfitting
- verifier ๋ฐ๋ณต ํ์๊ฐ ๋ง์์๋ก OOD ์ฑ๋ฅ ๊ฐ์ : 10ํ์ +5.99%
- SFT๊ฐ ์ง๋์น๊ฒ overfit๋ ์ํ๋ก RL์ ์์ํ๋ฉด OOD ์ฑ๋ฅ ๋ณต๊ตฌ ๋ถ๊ฐ
Personal note. robustํ๊ณ generalizableํ foundation model ๋ง๋ค๊ณ ์ถ๋ค๋ฉด RL ๊ผญ ํด์ผ๋๋ค๋ ๊ฒฐ๋ก . SFT๊ฐ ํ์์ ๋ฐฐ์ฐ๊ฒ ํ๋ ์ญํ ์ ํ๋ค๋ฉด (์์์ ๊ทธ ํ์ ๋ถ์ธ) RLํด์ฃผ๋ฉด ์ผ๋ฐํ์์ ํ์คํ ์ฐ์๋ฅผ ๊ฐ์ง๋ค๋ฅผ ๊ฒฝํ์ ์ผ๋ก ํ์ธํ ๋ ผ๋ฌธ์ ๋๋ค. (+์ธ๋ถ verifier๋ฅผ ๋๋ ๊ฒ ์ด๋์ด๋ค๊น์ง๋ ) TACT์์ DPO๋ง ํ๊ฑด ์ฌ์ ํ ํ๊ณ์ง๋ง, ํด๋ด์งํ๋ ์ด์ ๋ก ๋ค๊ณ ์ถ์ด์ ์ข ์์ธํ ๋ณธ ๋ ผ๋ฌธ์ธ๋ฐ ์ง์ ์ธ์ฉํด์ ๋ต์ ํ๋๋ผ๋ฉด ๋ ์ข์์ ๊ฒ ๊ฐ์ต๋๋ค. revision์์๋ ๋ณด๋ค ์ ๋ฉด์์ ์ธ๊ธํ๋๋ก ํด์ผ๊ฒ ์ต๋๋ค.