Improving Text Embeddings with Large Language Models
Meta info.
- Authors: iang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder, Furu Wei
- Paper: https://arxiv.org/pdf/2401.00368.pdf
- Affiliation: Microsoft Research
TL; DR
GPT-3.5, GPT-4๋ฅผ ํ์ฉ, 2-step prompt ์ฌ์ฉํด์ ๋ง๋ synthetic data(94 languages, 500K examples)๋ก decoder-only LLM(Mistral-7B)์ contrastive loss ์ฌ์ฉํด 1-epoch ํ์ต. ์ด unlabeled๋ง ํ์ต์ unsupervised SOTA์ ์กฐ๊ธ ๋ค์ณ์ง์ง๋ง, labeled data๋ ๊ฐ์ด ์ฌ์ฉํ๋ฉด MTEB, BEIR ๋ฑ์์ supervised SOTA๋ outperform.





Suggestions
- MTEB SOTA (using mistral-7b-instruct based model)
- ์ด๋ฏธ ์กด์ฌํ๋ LLM์ ์ด์ฉํ์ฌ data ์์ฑํ๊ฒ์ผ๋ก๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ธ ๋ ผ๋ฌธ (ํ์ง๋ง ์ต๊ณ ์ฑ๋ฅ์ ์์ฑ ๋ฐ์ดํฐ + E5์์ ์ฌ์ฉํ ๊ธฐ์กด ๋ฐ์ดํฐ ํฉ์น๊ฒ)
Personal note. ๋ฆฌ๋๋ณด๋ ํ์ธํ๋๋ฐ ์ฐจ์์ด ์๋์ ์ผ๋ก ํฌ๋ค์โฆ (4096, pic 4)
- ์์ฌ์ด์ : โmistral-7b ๋ฅผ ์ด์ฉํ๊ธฐ์ ์ฌ๋ผ๊ฐ ์ฑ๋ฅ์ ์ฐจ์ดโ๊ฐ ๋ถ๋ช ํํจ
- ํน์ดํ์ : mistral-7b ์์๋ contrastive pre-training์ ์ฑ๋ฅ ํฅ์์ด xlm-r ๋ชจ๋ธ ๋๋น ๋ณ๋ก ์์