Improving Text Embeddings with Large Language Models

January 3, 2024 less than 1 minute read

Meta info.

Authors: iang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder, Furu Wei
Paper: https://arxiv.org/pdf/2401.00368.pdf
Affiliation: Microsoft Research

TL; DR

GPT-3.5, GPT-4를 활용, 2-step prompt 사용해서 만든 synthetic data(94 languages, 500K examples)로 decoder-only LLM(Mistral-7B)을 contrastive loss 사용해 1-epoch 학습. 이 unlabeled만 학습시 unsupervised SOTA에 조금 뒤쳐지지만, labeled data랑 같이 사용하면 MTEB, BEIR 등에서 supervised SOTA도 outperform.

Untitled 4

Untitled

Suggestions

MTEB SOTA (using mistral-7b-instruct based model)
이미 존재하는 LLM을 이용하여 data 생성한것으로도 높은 성능을 보인 논문 (하지만 최고 성능은 생성 데이터 + E5에서 사용한 기존 데이터 합친것)

Personal note. 리더보드 확인했는데 차원이 압도적으로 크네요… (4096, pic 4)

아쉬운점: “mistral-7b 를 이용했기에 올라간 성능의 차이”가 불명확함

특이한점: mistral-7b 에서는 contrastive pre-training시 성능 향상이 xlm-r 모델 대비 별로 없음