RefCritic: Training Long Chain-of-Thought Critic Models with Refinement Feedback

July 28, 2025 1 minute read

Meta info.

Authors: Qiaoyu Tang, Hao Xiang, Le Yu, Bowen Yu, Hongyu Lin, Yaojie Lu, Xianpei Han, Le Sun, Junyang Lin
Paper: https://arxiv.org/pdf/2507.15024
Affiliation: Alibaba Group, CISAS
Published: July 20, 2025

TL; DR

해답의 정확성 및 개선 기여 피드백을 모두 평가하는 dual-reward RL-trained critic model을 도입한 RefCritic 제안, 수리 추론 과제에서 큰 성능 향상

LLM-based critic model: SFT로 훈련, 추론 검증 및 설명
- 실제 유용성보다는 표면적인 판단(정오 판단)에 초점 > 개선에 유익한 실행 가능한 피드백 부족
- DeepCritic, ThinkPRM
ProcessBench, CriticBench 등의 한계: step-level 또는 outcome verification에서 critic 평가
- critic feedback과 downstream task 연결성 부족

SFT만으로는 모자라다: Q-wen의 Self-Critique과 SFT critic의 한계 지적 (accuracy != actual improvement)
제안 방식이 실제 유익하다
- AIME25~: RefCritic-R1-RL이 최고성능 달성, pass@1 최대 +7.2% 향상 Tab 2
- ProcessBench: step-level supervision 없이 solution-level의 ciritic만으로도 baselines보다 우수 Tab 3
OOD Generalization: LiveCodeBench에서 +3.1, GPQA Majc@64에서 +3.5 Tab 4
Scaling Trends
- 더 많은 critic > 정확도 향상 (test-time scaling)
- 더 많은 솔루션 샘플 > majority나 self-critique보다 RefCritic이 더 나은 스케일링 Fig 3
Supervision of Stronger Models: RefCritic은 추론 능력도 향상: LLM들의 self-critique보다 낫다 Fig 2

Personal note. inference-time에서 critic을 multi-turn으로 주고받았을 때 효과나 양상이 궁금하고, step-wise로 critic을 주는 연구나 self-critique으로의 확장이 향후 연구 방향이 될 것으로 보입니다.