less than 1 minute read

Meta info.

TL; DR

반복적인 DPO 훈련으로 사람이 설계한 reward model이 아닌, LLM-as-a-Judge mechanism을 사용, LM이 자율적으로 instruction following & reward modeling > refine 반복.

Untitled

Untitled

Untitled

Untitled

Effects

Llama2 70B를 3회 iteration으로 AlpacaEval 2.0의 Claude2, Gemini Pro, GPT-4-0613을 앞지름.