Pandora’s Box or Aladdin’s Lamp: A Comprehensive Analysis Revealing the Role of RAG Noise in Large Language Models

September 4, 2024 2 minute read

Meta info.

Authors: Jinyang Wu, Feihu Che, Chuyuan Zhang, Jianhua Tao, Shuai Zhang, Pengpeng Shao
Paper: https://arxiv.org/pdf/2408.13533
Affiliation: Tsinghua Univ.
Published: August 24, 2024

TL; DR

LLM의 RAG 상황에서 다양한 Noise를 구분하고 분석. 유익한 Noise의 경우 모델 성능이 향상된다는 것을 확인. 벤치마크 NoiserBench를 제시하여 LLM의 Noise 대응 평가 및 유익한 noise는 활용하고 해로운 noise는 줄이는 방법 제시.

Problem States

일반적으로 RAG에서 가정하는 Noise가 정말 모두 유해한가? 유해한 noise와 유익한 noise를 구분할 수 있을까?

Suggestion

언어적 관점에서 7-type의 Noise 정의 Figure 2
- 유익한 Noise: Semantic Noise (SeN), Datatype Noise (DN), Illegal Sentence Noise (ISN)
  - Semantic Noise (SeN): query와 의미적으로 관련성이 낮은 내용 (주제에서 벗어나거나 의도된 의미에서 벗어난 경우)
  - Datatype Noise (DN): 웹상에서 서로 다른 데이터 유형이 혼합된 경우 (e.g.Wikipedia에서 링크와 텍스트가 혼합된 경우)
  - Illegal Sentence Noise (ISN): 문법적으로 옳지 않은 문장 (e.g. history transform cover managed that hand black)
- 유해한 Noise:Counterfactual Noise (CN), Supportive Noise (SuN), Orthographic Noise (ON), Prior Noise (PN)
  - Counterfactual Noise (CN): 사실과 다른 정보. 가짜 뉴스, 오래된 정보
  - Supportive Noise (SuN): 주장과 의미적으로 관련성이 높지만 답변 정보는 없는 문서
  - Orthographic Noise (ON): 철자 오류, 단어 길이 변경과 같은 오류
  - Prior Noise (PN): 잘못된 가정이나 전제에 기반한 질문 (e.g. query: 구글이 2017년에 Alphabet으로 구조조정 당시 CEO는 누구? - 구조 조정은 2015년에 발생)
NoiserBench 제안 Figure 3
1. QA Instance Generation: ChatGPT로 모호한 예시 거르면서 QA pair 생성/수집 (PN 제외하고 기존 방법론이 있다는데 자세히 확인해봐야할듯? )
2. Entailment Verification: NLI model bart-large-mnli-407M로 evidence가entailment인지 확인
3. Noise Introduction: Google 검색 엔진 등 외부 툴로 각 type에 해당하는 Noise 생성. 가령 CN은 Google 검색 결과에서 entity-relation 추출하고 이와 반대되는 response 생성 후 ChatGPT로 evidence 생성. SuN이나 SeN은 wikipedia dump를 source로 해서 모델 활용하여 검색 or 관련성 필터링 등 진행. ISN은 모델 vocab에서 임의 단어 조합 후 의미 없는 문장 구성. 실제 횡설수설하는 느낌으로 모방 하는 등 Figure 4
4. Testbeds Construction: free form QA를 객관식으로 변형하는 등, seed dataset으로 구축.
  - Single-hop(1-step reasoning): NQ, RGB
  - Multi-hop(Explicit multi-step reasoning): HotpotQA, 2WikiMQA, Bamboogle
  - Multi-hop(Implicit multi-step reasoning): StrategyQA, TempQA
  - Mixed-hop: PriorQA

Effects

유익한 Noise는 LLM 성능과 reasoning, confidence를 향상시킨다. (유해한 경우는 성능 하락)

Experimental Setup:
- Backbone: 8개 LLM (Llama3-Instruct (8B, 70B), Qwen2-7B-Instruct, Mistral (7B, 8x7B), Vicuna-13B-v1.5, Llama2-13B, Baichuan2-13B)
- Metric: Accuracy
Result:
- 유익한 Noise는 보다 명확한 reasoning, 표준화된 출력 형식, golden context에 대한 높은 신뢰도 등 모델 성능 향상에 기여
  - Table 1: Llama3-8B-Instruct / Qwen2-7b-Instruct로 7개 데이터셋에서 각 Noise type이 정확도에 미치는 영향 확인. 특히 ISN의 경우 모델 성능 크게 향상
  - Table 4: 통계적 유의성 검증을 위해 Wilcoxon signed-rank test로 확인
  - Table 5: Llama3-8B-instruct에서 유익한 Noise가 있고 없을 때 응답 차이
  - Figure 7: 대부분 ISN 추가되면 성능 향상되고, CN이 있는 환경에서 ISN이 추가되면 더욱 정확도 향상