RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework
Meta info.
- Authors: Kunlun Zhu, Yifan Luo, et al.
- Paper: https://arxiv.org/pdf/2408.01262
- Affiliation: Tsinghua Univ.
TL; DR
๋ค์ํ ๋ฌธ์ ์์ฑ + QA pair ๊ตฌ์ฑํ์ฌ ๋ค์ํ ์๋๋ฆฌ์ค์์ LLM์ ์ง์ ์ฌ์ฉ ๋ฅ๋ ฅ ํ๊ฐํ๋ Framework ์ ์





Problem States
๊ธฐ์กด RAG ๋ฒค์น๋งํฌ๋ ์ฃผ๋ก ์ผ๋ฐ ์ง์์ ๋ํด ํ๊ฐํ์ง๋ง, ์ฌ์ค์ ์ ๋ฌธ ๋๋ฉ์ธ ๋ฐ์ดํฐ์ ๋ํ ํ๊ฐ๋ ์ ์๋๊ณ ์์
Suggestions
- (stage 1) Schema Summary: ๊ท๋ฉ์ ์ถ๋ก ์ผ๋ก ๋๋ฉ์ธ๋ณ ๋ฌธ์์์ ํ์์ ์ธ ์ฌ์ค ์ ๋ณด๋ฅผ ๋ํ๋ด๋ ์คํค๋ง ๊ตฌ์ถ. seed text set์ ๋ฐํ์ผ๋ก organization, type, event, data, place,,,, ๋ฑ ์ฃผ์ ์์๋ฅผ ์บก์ํ
- (stage 2) Document Generation: ์์ schema์์ ํ์๋์ด, ์ฌ์ค์ ์ด๊ณ ์ผ๊ด์ ์ธ ํ ์คํธ ์์ฑ. ๊ท์น๊ธฐ๋ฐ + LLM๊ธฐ๋ฐ
- (stage 3) QRA Generation: ์์ Schema์ Document๊ธฐ๋ฐ์ผ๋ก Query - Reference - Answer์ triple ๊ตฌ์กฐ ์์ฑ
- Query ์ ํ: Factuality, multi-hop, summarization, multi-doc, unanswerable question, โฆ.
Effects
- Evaluation metrics
- Retrieve: EIR, Recall
- Generation : Completeness, Hallucination, Irrelevancy
- Results:
- ์์ framework์ผ๋ก ๊ตฌ์ถํ DRAGONBall Dataset ํ์ฉ: ๊ธ์ต, ๋ฒ๋ฅ , ์ํ ๋ฑ, ์ค๊ตญ์ด/์์ด ๋ฐ์ดํฐ์
- Human evaluation์ machine-generated evaluation๊ณผ ๋น๊ต
Personal note. RAG๋ context ๋ถ์ด๋ task์์ LLM์ผ๋ก ํน์ ๋๋ฉ์ธ ๋ฐ์ดํฐ์ ๊ตฌ์ถํ ๋ ์ฐธ๊ณ ๊ฐ๋ฅํ ๊ฒ ๊ฐ์ต๋๋ค.์ฝ๊ฐ ์คํค๋ง ๋ง๋๋๊ฒ ์ ๋๋ดํ ๋๋์ ์ํคํผ๋์ ์ธํฌ๋ฐ์ค ๊ฐ๊ธฐ๋ ํ๋ค์ย ๐ค