SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

July 14, 2025 2 minute read

Meta info.

Authors: Tianzhe Chu, Yuexiang Zhai, Jihan Yang, Shengbang Tong, Saining Xie, Dale Schuurmans, Quoc V. Le, Sergey Levine, Yi Ma
Paper: https://icml.cc/virtual/2025/poster/44633
Affiliation: Google DeepMind, HKU, NYU, UC Berkeley, Univ. of Alberta
Published: January 28, 2025
Code: https://github.com/LeslieTrue/SFTvsRL

TL; DR

SFT는 학습 데이터를 암기한다면, RL은 Rule-based text/vision reasoning 모두에서 일반화 능력을 배운다.

Background

LLM post training 연구는 한쪽으로만 초점을 맞춰 연구가 진행됨 (각 방식이 얼마나 일반화와 암기를 잘하나를 확인하는 등)

SFT: format adaptation을 위한 static 데이터로 instruction tuning (FLAN, LIMA 등) > 새로운 규칙/시각적 변화에는 약함
RL: Outcome-driven optimization (human feedback or proxy reward) (RLHF의 PPO 등)

Problem States

SFT와 RL은 모델의 일반화를 가르치는가? 아니면 학습데이터 암기를 가르치는가?

특히 multimodal 추론(text+vision)에 있어 규칙 변경(Rule variant), 시각 입력 변경(Visual OOD variant)이 달라졌을 때 얼마나 robust한가?

Suggestions

동일한 조건에서 SFT와 RL을 각각 일반화와 암기를 분리해 정량적으로 분석하자

Goal: SFT와 RL을 동일 수준의 training compute에서 동일 task에 대해, trainig에 없던 조건(=OOD)을 test할 때 어떻게 반응하는가?
암기: 모델이 훈련 데이터에서 본 패턴만을 그대로 재현하는 것. surface form만 복제
일반화: 암기를 넘어서, 새로운 규칙이나 조합에 대해 응용할 수 있는 것. 새로운 상황에 대한 적응능력에 중점.
Tasks: 각 테스크의 train-test 분포 의도적으로 분리, 잘 풀면 일반화를 할 수 있고, 그렇지 않으면 암기만 한 것으로 간주
- #1 GeneralPoints (숫자 카드 4장으로 24 만들기)
  - Rule variant: 규칙 개수 K를 10에서 13으로 변경 (text) GP-L
  - Visual OOD variant: 카드 색(♠️♣️ > ♥️♦️) 변경 (vision) GP-VL
- #2 V-IRL (실제 거리 이미지 기반 길찾기)
  - Rule variant: 지시어 절대방향 <→ 상대방향 (text) V-IRL-L
  - Visual OOD variant: NYC <→ 다른 도시(text + vision) V-IRL-VL

Effects

학습 구조: SFT > RL 순서
- RL 단독은 실패: SFT 없이 RL 단독으로 학습 시 instruction-following 자체가 안 되어서 실험 조건에서 제외
- RL은 multi-turn PPO + verifier reward 구조: verifier-based reward로 feedback 반복하는(multi-turn) training
  - VER(v_t^out) → (r_t, v_t^ver): 외부의 verifier가 정답을 맞췄는지 직접 판단한 Signal을 reward로 활용
    - v_t^out: 모델 출력, v_t^ver: 자연어 혹은 구조화된 Feedback message
    - r_t: 모델 출력의 reward
  - multi-turn: verifier가 틀렸다고 알려주면, 모델은 그 피드백을 반영해서 다음 턴에 개선을 시도하는 구조
- 각 step마다 생성 > 검증 > 피드백 수렴 (sequential revision): 생성 안정화를 위한 순차적인 프롬프트 수정
metrics:
- Success Rate: 최종 답 도달 비율
- Recognition Accuracy: 이미지에서 숫자/랜드마크 인식 정확도
- Per-step accuracy: V-IRL에서 지시 따르기 정확도
results:
- RL은 SFT 대비 모든 task에서 OOD generalization 향상
- Visual OOD 조건에서도 RL이 consistent하게 성능 우위
- SFT는 visual reasoning token에 overfitting
- verifier 반복 횟수가 많을수록 OOD 성능 개선: 10회에 +5.99%
- SFT가 지나치게 overfit된 상태로 RL을 시작하면 OOD 성능 복구 불가

Personal note. robust하고 generalizable한 foundation model 만들고 싶다면 RL 꼭 해야된다는 결론. SFT가 형식을 배우게 하는 역할을 한다면 (순서상 그 후에 붙인) RL해주면 일반화에서 확실히 우위를 가진다를 경험적으로 확인한 논문입니다. (+외부 verifier를 두는 게 이득이다까지도 ) TACT에서 DPO만 한건 여전히 한계지만, 해봄직했던 이유로 들고 싶어서 좀 자세히 본 논문인데 직접 인용해서 답을 했더라면 더 좋았을 것 같습니다. revision에서는 보다 전면에서 언급하도록 해야겠습니다.