RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework

August 8, 2024 less than 1 minute read

Meta info.

Authors: Kunlun Zhu, Yifan Luo, et al.
Paper: https://arxiv.org/pdf/2408.01262
Affiliation: Tsinghua Univ.

TL; DR

다양한 문서 생성 + QA pair 구성하여 다양한 시나리오에서 LLM의 지식 사용 능력 평가하는 Framework 제안

Problem States

기존 RAG 벤치마크는 주로 일반 지식에 대해 평가하지만, 사실은 전문 도메인 데이터에 대한 평가는 잘 안되고 있음

Suggestions

(stage 1) Schema Summary: 귀납적 추론으로 도메인별 문서에서 필수적인 사실 정보를 나타내는 스키마 구축. seed text set을 바탕으로 organization, type, event, data, place,,,, 등 주요 요소를 캡슐화
(stage 2) Document Generation: 앞선 schema에서 파생되어, 사실적이고 일관적인 텍스트 생성. 규칙기반 + LLM기반
(stage 3) QRA Generation: 앞선 Schema와 Document기반으로 Query - Reference - Answer의 triple 구조 생성
- Query 유형: Factuality, multi-hop, summarization, multi-doc, unanswerable question, ….

Effects

Evaluation metrics
- Retrieve: EIR, Recall
- Generation : Completeness, Hallucination, Irrelevancy
Results:
- 앞선 framework으로 구축한 DRAGONBall Dataset 활용: 금융, 법률, 의학 등, 중국어/영어 데이터셋
- Human evaluation을 machine-generated evaluation과 비교

Personal note. RAG나 context 붙이는 task에서 LLM으로 특수 도메인 데이터셋 구축할 때 참고 가능할 것 같습니다.약간 스키마 만드는게 제너럴한 느낌의 위키피디아 인포박스 같기도 하네요 🤔