LC-LLM RAG: Long-Context LLMs Meet RAG
Meta info.
- Authors: Bowen Jin, Jinsung Yoon, Jiawei Han, Sercan O. Arik
- Paper: https://arxiv.org/pdf/2410.05983
- Affiliation: Google Cloud
- Published: October 8, 2024
TL; DR
LC-LLM์ RAG์์ ์ธ ๋, (1) context ์์๋ฅผ ์ ์ฃผ๊ณ (2) RAG ๋๋์ ํ๋์์ผ์ฃผ๊ณ (3) ๋ช
์์ ์ผ๋ก relevant ์ฌ๋ถ๋ฅผ ํ๋จํ๋๋ก reasoning step ์ฃผ๋ฉด ๋ ์ํ๋ค.






Problem States
LC-LLM์ด RAG system์์ retrieved context ๊ฐ์๊ฐ ์ง๋์น๊ฒ ๋ง์์ง๋ง ์์ฑ ์ฑ๋ฅ ํ๋ฝํ๋ ๋ฌธ์ ๋ฐ์
- Research Question:
- RAG์์ LC-LLM ์ฌ์ฉํ ๋ retrieved context ์์ด ๋ง์์๋ก ์ผ๊ด๋๊ฒ ์ฑ๋ฅ์ด ํฅ์๋๋๊ฐ?ย
> ๊ทธ๊ฑด ์๋ - (RQ1์์ ๊ด์ฐฐ๋) performance bottleneck์ด retriver์ ํ๊ณ์ธ๊ฐ, ์๋๋ฉด (๊ฒ์๋ ์ปจํ
์คํธ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ ์ ์๋) LC-LLM์ ๋ฅ๋ ฅ์ ํ๊ณ ๋๋ฌธ์ธ๊ฐ?ย
> ์๋ง LLM์ ํ๊ณ - (ํด๋น LC-LLM์ ํ๊ณ๋ฅผ ๊ฐ์ ์ํค๋ ค๋ฉด) ์ผ๋ฐ์ ์ผ๋ก RAG system์์๋ high recall์ด ๊ธฐ๋ณธ = hard negative ํฌํจ ๊ฐ๋ฅ์ฑ ์ฆ๊ฐ๋๋ ๊ฒ ๋๋ฌธ์ผ๊ฒ ๊ฐ๋ค.
1) (์ด ๊ฐ์ ์ด ๋ง๋๊ฐ?) ํ์ฌ์ LC-LLM์ด ์ด๋ฌํ Hard Negative์ ์ผ๋ง๋ robustํ๊ฐ?ย
> ์ทจ์ฝํ๋ค2) (๋ง๋ค๋ฉด) Hard Negative์ ์ํฅ์ ์ฌ์ฉ๋๋ retriever์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋๊ฐ?ย> ๊ทธ๋ ๋ค
- RAG์์ LC-LLM ์ฌ์ฉํ ๋ retrieved context ์์ด ๋ง์์๋ก ์ผ๊ด๋๊ฒ ์ฑ๋ฅ์ด ํฅ์๋๋๊ฐ?ย
Suggestions
- Observation:
- (RQ1) RAG์์ LC-LLM ์ฌ์ฉํ ๋ retrieved context ์์ด ๋ง๋ค๊ณ ์ฑ๋ฅ์ด ํญ์ ์ข์์ง๋๊ฑด ์๋๋ฏ๋ก, ๊ทธ ์ธ์ ์์๋ฅผ ๊ณ ๋ฏผํด๋ด์ผ๋๋ค.
Figure 1: NQ๋ก ํ์ธํ ๊ฒฐ๊ณผ, strong retriever๋ฅผ ์ฌ์ฉํ ๊ฒฝ์ฐ RAG ์ฑ๋ฅ์ด concaveํ ํํ๋ฅผ ๋์ง๋ง, weak retriever๋ฅผ ์ฐ๋ฉด ์ฐ์ํฅํ๊ฑฐ๋ ์ฝ๊ฐ๋ง ๊ฐ์
- (RQ2) performance bottleneck์ LC-LLM์ ํ๊ณ๋ค.
Figure 2: RAG์ ์ ๋ฐ์ ์ธ accuracy๊ฐ ๋ชจ๋ retrieved context ์์ ๋ํด recall๋ณด๋ค ๋ฎ๋ค๋ ์ ์์ ๋ฏธ๋ฃจ์ด, ์ ๋ต์ ์ค๋ LC-LLM์ด ๋ชป๋ฐ๋๋ค๊ณ ๋ณด๋ ๊ฒ์ด ๋ง๋ค๋ ํด์- ์ฆ, irrelevant context (hard negative)๊ฐ ํฌ๋ฆฌํฐ์ปฌํ ์ ์๋ค.
- retriever๋ก e5์ฐ๋ ๊ฒฝ์ฐ, retrieved context๊ฐ ๋ง์์๋ก BM25์ ๋นํด ์ฑ๋ฅ ์ ํ๊ฐ ์ปธ๋ค๊ณ .
- (RQ3) Hard negative์ ์ค์์ฑ
Figure 3: ๋ชจ๋ LLM์์ hard negative context๊ฐ ์ฆ๊ฐํ๋ฉด ์ผ๋ฐ์ ์ผ๋ก RAG ์ฑ๋ฅ ๊ฐ์- LLMs: Gemma2-7B-Chat, Mistral-Nemo-12B-Instruct, Gemini-1.5-Pro
- hard negative context ๊ตฌ์ฑ: gold phrase(์ ๋ต ๊ตฌ์ ) + hard negative retrieved context (e5, Contriever, BM25, random sampling)
- retriever์ ์ฑ๋ฅ์ด hard negative ๋์ด๋์ ์ง์ ์ ์ธ ์๊ด์ฑ
- LLM์ weak retriever(BM25 or random sampling)์ context ๋ณด๋ค strong retriever (e5)์ hard negative context์ ๋ challenge (๋น์ฐํ๊ธด ํ๋ฐ, ์น๋ช ์ฑ์ ๋ณด์ฌ์ฃผ๊ณ ์ถ์๋ ๋ฏ)
- (RQ1) RAG์์ LC-LLM ์ฌ์ฉํ ๋ retrieved context ์์ด ๋ง๋ค๊ณ ์ฑ๋ฅ์ด ํญ์ ์ข์์ง๋๊ฑด ์๋๋ฏ๋ก, ๊ทธ ์ธ์ ์์๋ฅผ ๊ณ ๋ฏผํด๋ด์ผ๋๋ค.
- Methods:
- lost-in-the-middle ํด์๋ฅผ ์ํย Reranking: [Instruction, rank_1, rank_3, โฆ rank_4, rank_2] ๋ฑ์ผ๋ก ๋ฐฐ์น
- fine-tuning for implicit robustness:ย noisyํ retrieved context๋ฅผ ์ฒ๋ฆฌํ๋ ๊ฒ์ pretraining ๋จ๊ณ์์ ์๋ฐฐ์ฐ๋ฏ๋ก,ย finetuningย ํด์ผ๋๋ค. (hard-negative์ ๋ํ robustness)
- fine-tuning for explicit robustness:ย LLM์ด ๋ช ์์ ์ผ๋ก relevant ์ฌ๋ถ๋ฅผ ํ๋จํ๋๋กย intermediate reasoning์ ์ถ๊ฐ์ ์ผ๋ก ์ํํด์ผํ๋ค. (์ญ์ ํ๋)
Effects
- (Suggestion 1): reranking์ retrieved context๊ฐ ๋ง์์๋ก ์ ์ตย
Figure 4- Gemma-2-9B-Chat & Mistral-Nemo-12B-Instruct have tested NQ / PopQA with retrieved context by BM25 or e5
- lost-in-the-middle ํด์ ๋ฐ Hard negative context์ ๋ํ ์ ๋ต์ ์ฒ๋ฆฌ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ ๊ฒ์ผ๋ก ๋ณด์
- ์ฆ RAG์์ engineering ์ ์ผ๋ก ์ ๊ทผํ๋ ๊ฒ์ ์ค์์ฑ์ ๋ํ ์ญ์ค๊ณผ ๊ฐ๋ค๊ณ ํด์ ๊ฐ๋ฅ
- (Suggestion 2): implicit robustness๋ฅผ ์ํ Finetuning์ ์ ํจ์ฑย
Figure 5- NQ, WoW, Fever, MMLU๋ฑ์ผ๋ก RAG style tuningํ๊ณ , ๊ทธ ๋ ์๋ณธ QA set์ผ๋ก ํ๊ฐํ์ ๋, ํฐ ํญ์ผ๋ก ์ฑ๋ฅ ๊ฐ์ ํ์ธ
- ํด๋น QA set์ผ๋ก ์ง์ ํ๋ํ๋ ๊ฒ๋ณด๋ค ์ผ๊ด๋๊ฒ ๋ ๋์ ํจ๊ณผ
- NQ, WoW, Fever, MMLU๋ฑ์ผ๋ก RAG style tuningํ๊ณ , ๊ทธ ๋ ์๋ณธ QA set์ผ๋ก ํ๊ฐํ์ ๋, ํฐ ํญ์ผ๋ก ์ฑ๋ฅ ๊ฐ์ ํ์ธ
- (Suggestion 3): ๋ช
์์ ์ผ๋ก relevant ์ฌ๋ถ๋ฅผ ํ๋จ์ํค๋ ๊ฒ์ด ์ต์ข
์ฑ๋ฅ ํฅ์์ ์ ์ตย
Figure 6
Personal note. RAG๋ ผ๋ฌธ์ด Google Research ์์ ์๋์ค๊ณ Cloud์์ ๋์ค๋ ๊ฒฝํฅ์ด, ๋์ฑ ์์ง๋์ด๋ง์ ๊ฐ๊น์์ก๋ค๋ ์๋ฏธ๊ฐ ์๋์งโฆ?