The Differences Between Direct Alignment Algorithms are a Blur

February 10, 2025 1 minute read

Meta info.

Authors: Alexey Gorbatovski, Boris Shaposhnikov, Viacheslav Sinii, Alexey Malakhov, Daniil Gavrilov
Paper: https://arxiv.org/pdf/2502.01237
Affiliation: T-Tech
Published: February 3, 2025

TL; DR

Direct Alignment Algorithms (DAAs)의 구조적 차이 분석, RL 없이도 DPO 수준의 성능 달성 가능성 시사

Background

LLM Alignment 방법론으로 DAA 등장

- DAA: RL, RM 없이 직접적으로 Policy update (보통 SFT) - 주요 alignment 관련 알고리즘 분류
    
    
| **Method** | **Loss Function** | **Loss 계산 방식** | **SFT 필요 여부** |
| --- | --- | --- | --- |
| **DPO** (Direct Preference Optimization) | Likelihood Ratio | Pairwise | Two-Stage |
| **IPO** (Identity Preference Optimization) | Likelihood Ratio | Pairwise | Two-Stage |
| **SimPO** (Simple Preference Optimization) | Likelihood Ratio | Pairwise | Two-Stage |
| **ORPO** (Odds Ratio Preference Optimization) | Odds Ratio | Pairwise | One-Stage |
| **ASFT** (Aligned Supervised Fine-Tuning) | Odds Ratio | Pointwise | One-Stage |
| **NCA** (Noise Contrastive Alignment) | Likelihood Ratio | Pointwise | Two-Stage |
| **Cal-DPO** (Calibrated DPO) | Likelihood Ratio | Pairwise | Two-Stage |
| **APO-Zero** (Anchored Preference Optimization Zero) | Likelihood Ratio | Pointwise | Two-Stage |
- loss 계산 방식: pair-wise vs. point-wise
    - pair-wise: 두 개의 응답을 비교, 하나를 선호하도록 학습.
    - point-wise: 개별 응답의 점수를 조정하여 학습.
- reward function: Likelihood ratio `ASFT` (DPO, IPO, SimPO, NCA, Cal-DPO, APO-Zero) vs. Odds ratio `ORPO` (LβASFTAlign, LβORPOAlign)
    - `ORPO`: Odds Ratio PO
    - `ASFT`: Aligned SFT
- alignment 전에 SFT단계 필요 여부: 1-stage(ASFT, ORPO) vs. 2-stage(DPO, IPO, SimPO) - Research Question & Results:
- #1 One-stage 방법(ORPO, ASFT)에 SFT 단계를 추가하면 성능 오를까? `YES`
    - ORPO는 **DPO 수준**까지도 달성 `table 1`
- #2 β, tempering factor 같은게 ASFT와 ORPO 의 alignment 성능을 향상시키나? `YES`
    - β(정렬 수준..? 세기 조절): 너무 크거나 작으면 성능에 악영향, 최적화하여 적절한 값 필요 `Figure 1`
- #3 DAA에서 뭐가 alignment 성능을 향상시킬까? (핵심 요인이 뭐지?) `Pair-wise > Point-wise`
    - Pairwise 방식(DPO, IPO, ORPO, SimPO)이 Point-wise 방식(NCA, ASFT)보다 성능이 우수. `Figure 3`
- #4 SFT에서 사용된 데이터 양이 alignment 품질에 어떤 영향을 주는가? `적어도 된다`
    - SFT 데이터를 5~10%만 써도 alignment 성능이 크게 향상 (전체 쓰는거랑 비슷했다고) `Figure 5`

Personal note. pic 4 의 표는 논문에서 언급하고 있는 주요 PO 알고리즘을 논문에서 제안한 3가지 분류로 제가 다시 정리했는데 꼼꼼히 검토하진 않아서 정확하지 않습니다만, 최신의 PO 알고리즘 정리하고 흐름 확인해보는데 유익했습니다. 최근 마감중인 제안서 연구내용부분 내기 전에 봤으면 조금 더 많은 점을 언급해볼 수 있었을지도..