Learning to Plan & Reason for Evaluation with Thinking-LLM-as-a-Judge
Meta info.
- Authors: Swarnadeep Saha, Xian Li, Marjan Ghazvininejad, Jason Weston, Tianlu Wang
- Paper: https://arxiv.org/pdf/2501.18099
- Affiliation: Meta AI
- Published: January 30, 2025
TL; DR
์ฌ์ ์ ํ๊ฐ ๊ธฐ์ค์ ์ ๊ณตํ์ง ์๊ณ , ์์ฒด์ ์ผ๋ก ํ๊ฐ ๊ณํ-์คํ-ํ๋จ์ ๋ถ๋ฆฌํ์ฌ ์ํํ๋ Self-training loop์ thinking-llm-as-a-judge framework ์ ์, ์ ์ ๋ฐ์ดํฐ๋ก๋ SOTA ์ฑ๋ฅ๋ฌ์ฑ






Background
LLM-as-a-Judge ์คํ์ผ์ machine eval์ด human eval์ ๋์ฒดํ๋ ์ฐ๊ตฌ ์ฑํ
- ๊ธฐ์กด ์ฐ๊ตฌ๋ ์ฌ์ ์ ์๋ ํ๊ฐ ๊ธฐ์ค(criteria), ์ฐธ์กฐ ์ ๋ต(reference answers), ๊ฒ์ฆ ์ง๋ฌธ(verification questions) ๋ฑ ํ์
Problem States
- ๋๋ฉ์ธ/๋ชฉ์ ๋ณ ์ง์ ํ๊ฐ ๊ด๋ จ ์์๋ฅผ ์ง์ ์กฐ์ ํด์ผํ๊ณ , ์ผ๋ฐํ ๋ถ๊ฐ๋ฅ
- ํ๊ฐ์์ Planning๊ณผ reasoning์ด ํผ์ฌ๋จ. (์ฒด๊ณ์ฑ ๋ถ์กฑ)
Suggestion
EvalPlanner (Thinking-LLM-as-a-Judge)
- ์ฃผ์ ๊ฐ๋
๋ฐ ์ ์ฐจ: evaluation plan (z) generation > plan execution (e) > final verdict (y) (์์์ ์ธ๋ฒ์งธ pic, method overview)
-
p(z x): ์ ๋ ฅ x์ ๋ํ ํ๊ฐ ๊ณํ z ์์ฑํ๊ณ -
p(e z, x, a, b): ๊ณํ z์ ๋ฐ๋ผ ์๋ต a์ b ํ๊ฐ -
p(y e, z, x, a, b): ํ๊ฐ ์คํํ ๊ฒฐ๊ณผ ๋ฐํ์ผ๋ก ์ต์ข ํ๋จ y ์์ฑ
-
- DPO ํ์ต ๊ณผ์ ย
Table 2- initial policy SFT: z, e, y ๊ตฌ์กฐ๋ฅผ ๋ฐ๋ฅด๋๋ก, ์ฌ๋ฐ๋ฅธ ํ๊ฐ ๊ณผ์ ์ ๋ฐ๋ฅด๋ ์ฌ๋ก๋ง์ผ๋ก ํ์ต
- 1st DPO: ๋ง๋ ํ๊ฐ / ๋์ ํ๊ฐ ๋น๊ต ํ์ต
- 2st DPO: 1st DPO๋ ์๋ก์ด z, e๋ฅผ ์ํ๋งํ์ฌ ์ต์ ํ Loop ์ํ
- ์ฃผ์ ํน์ง
- planning๊ณผ execution ๋ถ๋ฆฌ: ๋ชจ๋ธ์ด ํ๊ฐ ๊ณํ ์์ฑ ํ ๊ณํ ์คํํ์ฌ ํ๊ฐ ์ํโ ํ๊ฐ์ ์ ๋ขฐ์ฑ/ํฌ๋ช ์ฑ/์ง๊ด์ฑ ์ฆ๊ฐ
- self-training loop ํ์ฉ: ๋ชจ๋ธ ์ค์ค๋ก ๋ฐ๋ณต์ ์ผ๋ก/์์ฒด์ ์ผ๋ก ์์ฑํ ํ๊ฐ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์ ์ง์ ์ฑ๋ฅ ํฅ์ (Self-Optimization)
- ์ฌ์ ์ ์๋ ๊ธฐ์ค ์์ด(๋ ผ๋ฌธ์์ unconstrained๋ก ํํ) planning ๊ฐ๋ฅ: ๋ค์ํ Task/๋๋ฉ์ธ ์ ์ฉ ๊ฐ๋ฅ
- ๋ฐ์ดํฐ ํจ์จ์ฑ ์ฆ๊ฐ: ๋ ์ ์ (22k ๊ท๋ชจ ์์ฑ ๋ฐ์ดํฐ๋ก preference pairs๋ก DPO ํ์ต) ๋์ ์ฑ๋ฅ ๋ฌ์ฑ
Effects
- task: RewardBench(LLM reward model ํ๊ฐ), FollowBenchEval(๋จ๊ณ๋ณ constraints ํ๊ฐ), RM-Bench (๋ชจ๋ธ robustness ๊ฒ์ฆ), JudgeBench (๋ค์ํ ๋ถ์ผ LLM-as-a-judge ๋ฅ๋ ฅ ํ๊ฐ)
- results:
- RewardBench :SOTA, ์ฌ์ง์ด ๋ ์ ์ ๋ฐ์ดํฐ
- FollowBenchEval: ์ด์ SOTA ๋๋น 13% ์ฑ๋ฅ ํฅ์
- RM-Bench: ์ด์ SOTA ๋๋น 8% ํฅ์
- JudgeBench ์ญ์ reasoning์์ ๊ฐ์
Personal note. ๋จ์ํ ํ๋ฆ์ธ๋ฐ ์ด๋ฒ ์ฐ๊ตฌ์์ ํ์์ด ๋งก์์ฃผ๊ณ ์๋ ๋ถ๋ถ, Langchain ์ธ ๋ ๊ฒ์ํ๋ ๊ณผ์ ์ ๋ํ ๋ ํผ๋ฐ์ค๋ก ์์ฑ ๊ฐ๋ฅํ ๊ฒ ๊ฐ์์. ๋ฌผ๋ก ์ฐ๋ฆฌ๋ DPO๊น์ง ํ์ง ์์ง๋งโฆ ๋ชจ์ชผ๋ก ๊ฐ์ด ํ์ธํด๋ด ์๋ค