less than 1 minute read

Meta info.

TL; DR

decoder 구조의 LLMs로 classification SFT

Untitled

Untitled

Untitled

Untitled

Problem States

instruction-tuned LLM « encoder-only based approaches

Suggestions

LS-LLaMA(Label Supervised LLaMA) 제안

  • 마지막 레이어에서 LlamaForSequenceClassification 로 representation을 뽑아 lable space로 projection(FFN)하여 cross entropy loss 계산, LoRA tuning : BERT-large, RoBERTa-large 대비 성능향상
  • LS-unLLaMA: 추가적으로 decoder에서 causal mask 제거시 NER task 에서는 SOTA까지 달성
  • 물론 여전히 encoder-only 구조보다 학습이 비싼 건 여전하므로 (모델 size), SOTA일지언정 1~2점 정도의 성능 향상폭 대비 cost를 함께 고려해야함.