Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach
Meta info.
- Authors: Zhuowan Li, Cheng Li, Mingyang Zhang, Qiaozhu Mei, Michael Bendersky
- Paper: https://arxiv.org/pdf/2407.16833
- Affiliation: Google DeepMind
- Published: July 23, 2024
TL; DR
(1) RAG vs. Long-context LLM์ ๋ํด, ์์๋ง ์ถฉ๋ถํ๋ค๋ฉด ๊ฒฐ๊ณผ์ ์ผ๋ก๋ LC LLM์ด ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์์ผ๋, (2) ๋น์ฉ ์ธก๋ฉด์ ํจ์จ์ ์ํด RAG๋ก routingํ๋ approach, Self-Route ์ ์




Problem States
์ด๋ค ์กฐ๊ฑด์์ LC๊ฐ RAG๋ณด๋ค ๋ซ๊ฑฐ๋ ๊ทธ๋ ์ง ์์์ง ์๋ณ
- LC: ๊ฒ์ ์์ด ๋ฌธ์ ์ ์ฒด ์ ๋ ฅ
- RAG: query ๊ธฐ๋ฐ์ผ๋ก ๊ด๋ จ์ฑ ๋์ ์์ k๊ฐ(5๊ฐ) ํ์ passage(๋ฌธ์์ ํ์ ๋จ์. 300๊ฐ token์ฉ ์๋ฆ) ๊ฒ์ ๊ฒฐ๊ณผ๋ฅผ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉ
Suggestion
- RAG vs LCย
Table 1- target: Gemini-1.5-Pro, GPT-4o, GPT-3.5-Turbo
- retriever: Contriever
- dataset: LongBench, โBench
- metrics: ROUGE, F1-score, Accuracy ๋ฑ
- result: LC LLM์ด ์ผ๊ด๋๊ฒ long context ์ดํด ๋ฅ๋ ฅ์ด ๋ ์ข์.
- Gemini-1.5-Pro 7.6%, GPT-4o 13.1%, GPT-3.5-Turbo 3.6% ๋ฑ
- ์์ธ: input length๊ฐ model input์ ์ด๊ณผํ๋ ๊ฒฝ์ฐ
- RAG๊ฐ GPT-3.5-Turbo์์ ๋ ๋์ ์ฑ๋ฅ (๊ณ์ฐ ๋น์ฉ ์ธก๋ฉด์์ ์ฌ์ ํ ์ ๋ฆฌ)
- target: Gemini-1.5-Pro, GPT-4o, GPT-3.5-Turbo
- Self-Route
- motivation: Suggestion 1์ ๊ฒฐ๊ณผ(LC-LLM์ด ๋ ์ํ๋ค) + RAG๋ LC-LLM์ด๋ 60%๋ ๊ฐ์ ์์ธกย
Figure 2 - process:
- RAG-and-Route Step: query์ ๊ฒ์ ์ ๋ณด๊ฐ ๋ถ์ถฉ๋ถํ๋ค๋ฉด โ๋ต๋ณ ๋ถ๊ฐโ๋ก ๋ต๋ณ ๊ฑฐ๋ถํ๋๋ก ์ต์ ์ ๊ณตํ์ฌ RAG๋จผ์ ํ์
- Long-Context Prediction Step: ์์ ๋ต๋ณ ๋ถ๊ฐ์ธ ๊ฒฝ์ฐ๋ง ๊ณจ๋ผ์ LC-LLM ํ์
- result: LC ๋๋น input token ๊ฐ์๋ฅผ ์ต๋ 65%๊น์ง ์ค์ด๋ฉด์ LC ์ฑ๋ฅ์ ๊ทผ์ ย
Figure 1- Gemini-1.5-Pro๊ธฐ์ค LC๋๋น 38% token๋ง ์จ๋ ๊ฑฐ์ ๋น์ทํ ์ฑ๋ฅ ๋ณด์ด๋ ๋ฑ
- ablation
- k(retrieve ๊ฐ์)๋ ํด์๋ก RAG ์ฑ๋ฅ ์ข์์ง๋ ๊ฑด ์ผ๋ฐ๋ก ์ด์ง๋ง ๋น์ฉ ๊ณ ๋ ค์ k=5๊ฐ ์ต์
- RAG ์คํจ์ ์ฃผ์ ์์ธ์ multi-step reasoning. ๋ณต์กํ๊ฑฐ๋ ์์์ ์ธ query ์ญ์ ์คํจ ์์ธย
Figure 4 - retriever ๋ฐ๊ฟ๋ ๋น์ทํด ์ผ๋ฐํํ ์ ์๊ฒ ๋ค๊ณ ์ ์ (Dragon ๊ณผ ๋น๊ต)
- motivation: Suggestion 1์ ๊ฒฐ๊ณผ(LC-LLM์ด ๋ ์ํ๋ค) + RAG๋ LC-LLM์ด๋ 60%๋ ๊ฐ์ ์์ธกย