The Differences Between Direct Alignment Algorithms are a Blur
Meta info.
- Authors: Alexey Gorbatovski, Boris Shaposhnikov, Viacheslav Sinii, Alexey Malakhov, Daniil Gavrilov
- Paper: https://arxiv.org/pdf/2502.01237
- Affiliation: T-Tech
- Published: February 3, 2025
TL; DR
Direct Alignment Algorithms (DAAs)์ ๊ตฌ์กฐ์ ์ฐจ์ด ๋ถ์, RL ์์ด๋ DPO ์์ค์ ์ฑ๋ฅ ๋ฌ์ฑ ๊ฐ๋ฅ์ฑ ์์ฌ



Background
LLM Alignment ๋ฐฉ๋ฒ๋ก ์ผ๋ก DAA ๋ฑ์ฅ
- DAA: RL, RM ์์ด ์ง์ ์ ์ผ๋ก Policy update (๋ณดํต SFT) - ์ฃผ์ alignment ๊ด๋ จ ์๊ณ ๋ฆฌ์ฆ ๋ถ๋ฅ
| **Method** | **Loss Function** | **Loss ๊ณ์ฐ ๋ฐฉ์** | **SFT ํ์ ์ฌ๋ถ** |
| --- | --- | --- | --- |
| **DPO** (Direct Preference Optimization) | Likelihood Ratio | Pairwise | Two-Stage |
| **IPO** (Identity Preference Optimization) | Likelihood Ratio | Pairwise | Two-Stage |
| **SimPO** (Simple Preference Optimization) | Likelihood Ratio | Pairwise | Two-Stage |
| **ORPO** (Odds Ratio Preference Optimization) | Odds Ratio | Pairwise | One-Stage |
| **ASFT** (Aligned Supervised Fine-Tuning) | Odds Ratio | Pointwise | One-Stage |
| **NCA** (Noise Contrastive Alignment) | Likelihood Ratio | Pointwise | Two-Stage |
| **Cal-DPO** (Calibrated DPO) | Likelihood Ratio | Pairwise | Two-Stage |
| **APO-Zero** (Anchored Preference Optimization Zero) | Likelihood Ratio | Pointwise | Two-Stage |
- loss ๊ณ์ฐ ๋ฐฉ์: pair-wise vs. point-wise
- pair-wise: ๋ ๊ฐ์ ์๋ต์ ๋น๊ต, ํ๋๋ฅผ ์ ํธํ๋๋ก ํ์ต.
- point-wise: ๊ฐ๋ณ ์๋ต์ ์ ์๋ฅผ ์กฐ์ ํ์ฌ ํ์ต.
- reward function: Likelihood ratioย `ASFT`ย (DPO, IPO, SimPO, NCA, Cal-DPO, APO-Zero) vs. Odds ratioย `ORPO`ย (LฮฒASFTAlign, LฮฒORPOAlign)
- `ORPO`: Odds Ratio PO
- `ASFT`: Aligned SFT
- alignment ์ ์ SFT๋จ๊ณ ํ์ ์ฌ๋ถ: 1-stage(ASFT, ORPO) vs. 2-stage(DPO, IPO, SimPO) - Research Question & Results:
- #1 One-stage ๋ฐฉ๋ฒ(ORPO, ASFT)์ SFT ๋จ๊ณ๋ฅผ ์ถ๊ฐํ๋ฉด ์ฑ๋ฅ ์ค๋ฅผ๊น?ย `YES`
- ORPO๋ย **DPO ์์ค**๊น์ง๋ ๋ฌ์ฑย `table 1`
- #2 ฮฒ, tempering factor ๊ฐ์๊ฒ ASFT์ ORPO ์ alignment ์ฑ๋ฅ์ ํฅ์์ํค๋?ย `YES`
- ฮฒ(์ ๋ ฌ ์์ค..? ์ธ๊ธฐ ์กฐ์ ): ๋๋ฌด ํฌ๊ฑฐ๋ ์์ผ๋ฉด ์ฑ๋ฅ์ ์
์ํฅ, ์ต์ ํํ์ฌ ์ ์ ํ ๊ฐ ํ์ย `Figure 1`
- #3 DAA์์ ๋ญ๊ฐ alignment ์ฑ๋ฅ์ ํฅ์์ํฌ๊น? (ํต์ฌ ์์ธ์ด ๋ญ์ง?)ย `Pair-wise > Point-wise`
- Pairwise ๋ฐฉ์(DPO, IPO, ORPO, SimPO)์ด Point-wise ๋ฐฉ์(NCA, ASFT)๋ณด๋ค ์ฑ๋ฅ์ด ์ฐ์.ย `Figure 3`
- #4 SFT์์ ์ฌ์ฉ๋ ๋ฐ์ดํฐ ์์ด alignment ํ์ง์ ์ด๋ค ์ํฅ์ ์ฃผ๋๊ฐ?ย `์ ์ด๋ ๋๋ค`
- SFT ๋ฐ์ดํฐ๋ฅผ 5~10%๋ง ์จ๋ alignment ์ฑ๋ฅ์ด ํฌ๊ฒ ํฅ์ (์ ์ฒด ์ฐ๋๊ฑฐ๋ ๋น์ทํ๋ค๊ณ )ย `Figure 5`
Personal note.
pic 4์ ํ๋ ๋ ผ๋ฌธ์์ ์ธ๊ธํ๊ณ ์๋ ์ฃผ์ PO ์๊ณ ๋ฆฌ์ฆ์ ๋ ผ๋ฌธ์์ ์ ์ํ 3๊ฐ์ง ๋ถ๋ฅ๋ก ์ ๊ฐ ๋ค์ ์ ๋ฆฌํ๋๋ฐ ๊ผผ๊ผผํ ๊ฒํ ํ์ง ์์์ ์ ํํ์ง ์์ต๋๋ค๋ง, ์ต์ ์ PO ์๊ณ ๋ฆฌ์ฆ ์ ๋ฆฌํ๊ณ ํ๋ฆ ํ์ธํด๋ณด๋๋ฐ ์ ์ตํ์ต๋๋ค. ์ต๊ทผ ๋ง๊ฐ์ค์ธ ์ ์์ ์ฐ๊ตฌ๋ด์ฉ๋ถ๋ถ ๋ด๊ธฐ ์ ์ ๋ดค์ผ๋ฉด ์กฐ๊ธ ๋ ๋ง์ ์ ์ ์ธ๊ธํด๋ณผ ์ ์์์์ง๋..