Learning to Plan & Reason for Evaluation with Thinking-LLM-as-a-Judge

February 5, 2025 1 minute read

Meta info.

Authors: Swarnadeep Saha, Xian Li, Marjan Ghazvininejad, Jason Weston, Tianlu Wang
Paper: https://arxiv.org/pdf/2501.18099
Affiliation: Meta AI
Published: January 30, 2025

TL; DR

사전에 평가 기준을 제공하지 않고, 자체적으로 평가 계획-실행-판단을 분리하여 수행하는 Self-training loop의 thinking-llm-as-a-judge framework 제안, 적은 데이터로도 SOTA 성능달성

기존 연구는 사전 정의된 평가 기준(criteria), 참조 정답(reference answers), 검증 질문(verification questions) 등 필요

주요 개념 및 절차: evaluation plan (z) generation > plan execution (e) > final verdict (y) (순서상 세번째 pic, method overview)
- p(z x): 입력 x에 대한 평가 계획 z 생성하고
- p(e z, x, a, b): 계획 z에 따라 응답 a와 b 평가
- p(y e, z, x, a, b): 평가 실행한 결과 바탕으로 최종 판단 y 생성
DPO 학습 과정 Table 2
- initial policy SFT: z, e, y 구조를 따르도록, 올바른 평가 과정을 따르는 사례만으로 학습
- 1st DPO: 맞는 평가 / 나쁜 평가 비교 학습
- 2st DPO: 1st DPO된 새로운 z, e를 샘플링하여 최적화 Loop 수행
주요 특징
- planning과 execution 분리: 모델이 평가 계획 생성 후 계획 실행하여 평가 수행→ 평가에 신뢰성/투명성/직관성 증가
- self-training loop 활용: 모델 스스로 반복적으로/자체적으로 생성한 평가 데이터 기반 점진적 성능 향상 (Self-Optimization)
- 사전 정의된 기준 없이(논문에서 unconstrained로 표현) planning 가능: 다양한 Task/도메인 적용 가능
- 데이터 효율성 증가: 더 적은 (22k 규모 생성 데이터로 preference pairs로 DPO 학습) 높은 성능 달성

task: RewardBench(LLM reward model 평가), FollowBenchEval(단계별 constraints 평가), RM-Bench (모델 robustness 검증), JudgeBench (다양한 분야 LLM-as-a-judge 능력 평가)
results:
- RewardBench :SOTA, 심지어 더 적은 데이터
- FollowBenchEval: 이전 SOTA 대비 13% 성능 향상
- RM-Bench: 이전 SOTA 대비 8% 향상
- JudgeBench 역시 reasoning에서 강점

Personal note. 단순한 흐름인데 이번 연구에서 팀원이 맡아주고 있는 부분, Langchain 쓸 때 검수하는 과정에 대한 레퍼런스로 작성 가능할 것 같아요. 물론 우리는 DPO까진 하진 않지만… 모쪼록 같이 확인해봅시다