1 minute read

Meta info.
  • Authors: Qiaoyu Tang, Hao Xiang, Le Yu, Bowen Yu, Hongyu Lin, Yaojie Lu, Xianpei Han, Le Sun, Junyang Lin
  • Paper: https://arxiv.org/pdf/2507.15024
  • Affiliation: Alibaba Group, CISAS
  • Published: July 20, 2025

TL; DR

해답의 정확성 및 개선 기여 피드백을 모두 평가하는 dual-reward RL-trained critic model을 도입한 RefCritic 제안, 수리 추론 과제에서 큰 성능 향상

image 1 image 2 image 3 image 4 image 5 image 6 image 7 image

Background

LLM-based critic 모델의 대두

  • LLM-based critic model: SFT로 훈련, 추론 검증 및 설명
    • 실제 유용성보다는 표면적인 판단(정오 판단)에 초점 > 개선에 유익한 실행 가능한 피드백 부족
    • DeepCritic, ThinkPRM
  • ProcessBench, CriticBench 등의 한계: step-level 또는 outcome verification에서 critic 평가
    • critic feedback과 downstream task 연결성 부족

Problem States

SFT-based critic은 response의 개선으로 이어지는 깊이있고 신뢰할만한 비평을 생성하지 못한다.

  • 판단은 종종 잘하더라도 그 추론은 얕거나 결함 포함
  • 해주는 피드백이 모호하고 구체성이 부족하여 실제 모델 output 개선은 어려움
  • 비평의 질을 policy 모델 개선과 연계할 수 있는 인센티브 구조가 없다.

Suggestions

RefCritic Framework

  • 2-stage critic model 훈련 Pipeline (GRPO-based RL)
    • Cold-Start SFT
      • NuminaMath-1.5의 약 1만개 고품질 sample 활용
      • critic models이 Long CoT critiques z, 정답 판단 (correct/incorrect) c^, refinement feedback f 생성하도록 학습
    • Dual-Reward RL with Refinement Feedback
      • Judgment Reward R_j: critic 모델의 prediction가 ground truth랑 일치하는가?
      • Refinement Reward R_r: policy model이 f 반영 후 생성한 m개의 새 해답에 대해 개선된 만큼 Reward 부여
        • policy model의 prediction이 틀렸고, critic 모델의 판단이 맞을 때만 계산
        • 무의미한 feedback을 준 경우 refinement에 대한 강화학습 reward 0
      • e.g., 정답이 7인데 policy model은 8이라고 대답 (오답) > critic model은 c^ 틀렸다고 판단 (정오 맞춤, R_j) + feedback f 생성 > f 보고 policy model이 m개 output 생성 > 그 중 맞춘 만큼이 critic model의 R_r

Effects

  • SFT만으로는 모자라다: Q-wen의 Self-Critique과 SFT critic의 한계 지적 (accuracy != actual improvement)
  • 제안 방식이 실제 유익하다
    • AIME25~: RefCritic-R1-RL이 최고성능 달성, pass@1 최대 +7.2% 향상 Tab 2
    • ProcessBench: step-level supervision 없이 solution-level의 ciritic만으로도 baselines보다 우수 Tab 3
  • OOD Generalization: LiveCodeBench에서 +3.1, GPQA Majc@64에서 +3.5 Tab 4
  • Scaling Trends
    • 더 많은 critic > 정확도 향상 (test-time scaling)
    • 더 많은 솔루션 샘플 > majority나 self-critique보다 RefCritic이 더 나은 스케일링 Fig 3
  • Supervision of Stronger Models: RefCritic은 추론 능력도 향상: LLM들의 self-critique보다 낫다 Fig 2

Personal note. inference-time에서 critic을 multi-turn으로 주고받았을 때 효과나 양상이 궁금하고, step-wise로 critic을 주는 연구나 self-critique으로의 확장이 향후 연구 방향이 될 것으로 보입니다.