CRAB: Constraint Back-translation Improves Complex Instruction Following of Large Language Models
Meta info.
- Authors: Yunjia Qi, Hao Peng, Xiaozhi Wang, Bin Xu, Lei Hou, Juanzi Li
- Paper: https://arxiv.org/pdf/2410.24175
- Affiliation: Tsinghua Univ.
- Published: October 31, 2024
TL; DR
์ ์ฝ์กฐ๊ฑด์ ์ฌ์์ฑ (backtranslation) ์ํค๋ฉด ์ ์ฝ์กฐ๊ฑด์ ๋ ์ ๋ฐ๋ฅด๋๋ผ





Problem States
constraints์ด ๋ง๊ณ ๋ณต์กํ ๊ฒฝ์ฐ (+ ์์์ ์ธ ๊ฒฝ์ฐ) ์ฑ๋ฅ์ด ๋ฎ์ LLM
Suggestions
constraints์ backtranslation ์ํค๋ ๋ฐฉ์์ผ๋ก output ์์ฑ
- CRAB ๋ฐ์ดํฐ์
๊ตฌ์ถ: 13.5K ๊ท๋ชจ, ํ๊ท 7๊ฐ์ง ์ ์ฝ์กฐ๊ฑด ํฌํจ
- ์๋ ๋ฐ์ดํฐ์ (Alpaca, Evol Instrct, โฆ )์ instruction + response pair ๋์
- LLM์ response๊ฐ ์ด๋ฏธ ์ถฉ์กฑํ๊ณ ์๋ response์ ๊ตฌ์ฒด์ ์ธ ์กฐ๊ฑด๋ค์ ์ถ๊ฐ์ ์ธ ์ ์ฝ์ผ๋ก ์ค์ (+ ๋น์ฉ์ ๊ฐํจ๊ณผ)
- constraints: ์ ์๋ค์ด ์๋ณํ 19๊ฐ์ง ์ ์ฝ ์ค ๊ธธ์ด, ํค์๋, ๋ฌธ์ฅ๋ถํธ ๋ฑ ๊ฐ๋ฒผ์ด ์กฐ๊ฑด์ ๋ํด์๋ Python ์ผ๋ก, ๋๋จธ์ง๋ Llama3-70B-Instruct์ผ๋ก ๋ง๋ถ์.
- 6~8๊ฐ์ constraints๋ฅผ ๊ฐ instruction์ ์ถ๊ฐ
- 50%์ ๋ํด์๋ง 1~3๊ฐ์ demonstration ์ถ๊ฐ
- after-training: ๊ธฐ์กด instruction-tuning ์คํ์ผ๋๋ก, ๋ณต์กํ ์ ์ฝ์ ์ ๋ ฅ์ผ๋ก, response+ ์ ์ฝ์ ํจ๊ป ์ถ๋ ฅํ๋๋ก Meta-Llama-3-8B, Mistral-7B-v0.3์ ํ์ ํ์ต ์ํ (Loss = pre-training loss + after-training loss)
Effects
- Constraints backtranslation์ด ์ ์ฉํ ์ฌํํ์ต์ objective๊ฐ ๋ ์ ์๋ค.
- ๋ณต์กํ instruction์ ํ์ต์ํจ baseline(Conifer)๋ณด๋ค DPO ํ๋๊น์ง ํ๋ฉด ์ด ๋ฐฉ์์ด ๋ ์ ์ํ๋ค๊ณ ์ฃผ์ฅ
Personal note. ์ ๋ฆฌ์ ํจ๊ป ์ ์ ๊ณ ๋ฏผํ๋ ๊ทธ ๋ด์ฉ(์ธ๊ฐ ์ ์ฅ์์ ์ฌ์ด task ๋ฅผ LLM์ ์ ๋ชปํ๋..!)๊ณผ ์ ์ฌํด์ ๊ฐ์ ธ์๋ด ๋๋ค. > > > ์์ ๋น์ทํ ์ ๊ทผ์ ์๋์ง๋ง (์ฌ์ด๋ฌธ์ ์์ฒด๋ณด๋ค๋ ๊ธฐ์กด์ LLM์ด ์ ํ๋ ๋ฌธ์ ์ ์ ์ฝ์ ์ถ๊ฐํ๋ ๋ฐฉ์์ผ๋ก ๋ฌธ์ ๋ฅผ ๊ผฌ์์ ์ ๊ทผ) > > ๋ฐฉ์์ด ํน๋ณํ๋ค๊ธฐ๋ณด๋ค๋ ์ ์ ๋ฐฉ๋ฒ์ด ์๋์ ์ผ๋ก ๊ฐํธํ๊ณ , ๊ธฐ์กด์ instruction tuning์ ์ด์ด์ ๋ฐ๋ก ํ์ฉ๋ ๊ฐ๋ฅํ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค. >