CRAB: Constraint Back-translation Improves Complex Instruction Following of Large Language Models

November 4, 2024 1 minute read

Meta info.

Authors: Yunjia Qi, Hao Peng, Xiaozhi Wang, Bin Xu, Lei Hou, Juanzi Li
Paper: https://arxiv.org/pdf/2410.24175
Affiliation: Tsinghua Univ.
Published: October 31, 2024

TL; DR

제약조건을 재생성 (backtranslation) 시키면 제약조건을 더 잘 따르더라

Problem States

constraints이 많고 복잡한 경우 (+ 암시적인 경우) 성능이 낮은 LLM

Suggestions

constraints을 backtranslation 시키는 방식으로 output 생성

CRAB 데이터셋 구축: 13.5K 규모, 평균 7가지 제약조건 포함
- 원래 데이터셋(Alpaca, Evol Instrct, … )의 instruction + response pair 대상
- LLM의 response가 이미 충족하고 있는 response의 구체적인 조건들을 추가적인 제약으로 설정 (+ 비용절감효과)
  - constraints: 저자들이 식별한 19가지 제약 중 길이, 키워드, 문장부호 등 가벼운 조건에 대해서는 Python 으로, 나머지는 Llama3-70B-Instruct으로 덧붙임.
  - 6~8개의 constraints를 각 instruction에 추가
  - 50%에 대해서만 1~3개의 demonstration 추가
after-training: 기존 instruction-tuning 스타일대로, 복잡한 제약을 입력으로, response+ 제약을 함께 출력하도록 Meta-Llama-3-8B, Mistral-7B-v0.3에 후속 학습 수행 (Loss = pre-training loss + after-training loss)

Effects

Constraints backtranslation이 유용한 사후학습의 objective가 될 수 있다.
복잡한 instruction을 학습시킨 baseline(Conifer)보다 DPO 튜닝까지 하면 이 방식이 더 유의했다고 주장

Personal note. 유리와 함께 잠시 고민하던 그 내용(인간 입장에서 쉬운 task 를 LLM은 왜 못하나..!)과 유사해서 가져와봅니다. > > > 완전 비슷한 접근은 아니지만 (쉬운문제 자체보다는 기존의 LLM이 잘 풀던 문제에 제약을 추가하는 방식으로 문제를 꼬아서 접근) > > 방식이 특별하다기보다는 제안 방법이 상대적으로 간편하고, 기존의 instruction tuning에 이어서 바로 활용도 가능할 것으로 보입니다. >