Cooper: Co-Optimizing Policy and Reward Models in Reinforcement Learning for Large Language Models

August 18, 2025 2 minute read

Meta info.

Authors: Haitao Hong, Yuchen Yan, Xingyu Wu, Guiyang Hou, Wenqi Zhang, Weiming Lu, Yongliang Shen, Jun Xiao
Paper: https://arxiv.org/pdf/2508.05613
Affiliation: Zhejiang Univ
Published: August 7, 2025
Code: https://github.com/zju-real/cooper
References: https://zju-real.github.io/cooper

TL; DR

policy와 reference-based RM (verifyRM) 을 동시에 update하는 RL framework COOPER 제안. reward hacking을 막기 위해 rule-based positives와 LLM-generated negatives를 활용한 contrastive pair 구축.

Background

RLHF, DPO, GRPO 등 RL-based post training의 reward design은 크게 두 축으로 rule-based/verifiable 또는 model-based
최근 verifiable reasoning 파이프라인(o1, R1 등)은 rule-based reward 활용이 보편적

Problem States

RM의 두 방식에 대한 장점만 취한 RM 설계

static RM은 flexible한데 반해 reward hacking에 취약하고 (RL 성능 저하)
rule-based reward의 강건성에 한계 (hacking에 강건하나, 상대적으로 format과 내구성 등에 issue)

Suggestions

Preliminary Observations: Table 1
- rule-based verifiers는 correctness에서 높은 precision 낮은 recall
- small LLMs-based judges(model-based methods)는 상대적으로 균형잡힌 성능
- positive case에 대해 rule-based 방식을 활용하자
VerifyRM: 일반적으로 RM이 입력받는 query q + completion o 뿐만 아니라 + reference a를 추가로 받아 정답 여부 판단하는 binary classifier 훈련
- backbone: Qwen2.5-Math-1.5B-Instruct, objective: BCE
- datasets: Math-Verify(rule-based) + Qwen3-4B’s judge; Consensus labeled만 사용 « 기존 reference-based 방식과의 차별점
Cooper Algorithm 1
- Stage 1. Policy optimization w/GRPO
  - 각 q + a에 대해, 현재 Policy로 G개의 rollout 샘플, 각 rollout을 VerifyRM(q, a, oᵢ)로 평가 (=r),
  - reward를 group별로 normalization + KL divergence penalty
- Stage 2. Reward model optimization w/ contrastive learning
  - positive samples: Table 1의 결과에 따라, rule-based verifier(높은 precision)의 정답
  - negative samples: assistant LLM이 pos sample 보고 negative reasoning 생성 > rule-base verifier가 검증하여 확인
  - objectives: pos와 neg 간 마진 최대화

Effects

Experiment setup:
- RL dataset: DeepMath (자원 문제로 10k 이하로 sampling)
- Base policies: Qwen2.5-1.5B-Instruct, Llama-3.2-1B-Instruct
- Target tasks: math problems; GSM8K, SVAMP, MATH500, OlympiadBench-EN (OB-EN), Math Odyssey
- Baselines: (a) Rule: Math-Verify as reward; (b) Model: VerifyRM-1.5B fixed (no updates).
Table 2 VerifyRM이 쓸만한가? » yes
- VerifyBench 기준 제안한 VerifyRM-1.5B가 baselines대비 최고 정확도 (89.42%) 달성
- vs. rule-based baselines: Math-Verify (79.93%)
- vs. reference-based baselines : xVerify-9B-C (84.23%)
  - xVerify: 모델이 낸 답과 최종 답이 수학적으로, 자연어 해설로도, 기호로도 동치인지 확인한다고
Table 3 Cooper가 쓸만한가? (target tasks 결과, main results) » yes
- Qwen2.5-1.5B 기준 5개 task 평균: base 54.93 > rule-based 57.48 > static RM (model-based) 38.91 > Cooper 58.02
  - 특히 Odyssey에서 강력한 성능
  - Llama-3.2-1B도 마찬가지 경향 확인
Figure 3 Training Dynamics (=reward hacking의 증거)
- overoptmization: 앞선 static RM의 실패를 reward로 확인해보면 실제 training에서 spikes가 거의 1에 가까운 반면 test에서 성능은 step ~120쯤에서 급락
- 제안 방법의 강건성: Cooper의 training reward가 훨씬 stable 하고 실제 정확도도 높은 결과로 이어짐

Personal note. 읽어보고 나니 대단히 특별한 내용은 아닌데, preliminary experiments로 의도하고자 하는 방향의 모티베이션을 얻어서 data 구축에 참고했다는 흐름은 설득력있는 주장으로 잘 포장한 것처럼 보이게 합니다. 좁은 target space를 상정한 것 같기는 한데 다른 Task Reward shaping 관점으로 쉽게 확장해봄직은 할 것으로 보입니다. LLM 시대에서 리더보드에 줄세우는 방식이 아직도 가능한 테스크로 수학문제풀기가 거의 유일한건지에 대한 궁금증도 드네요.