2 minute read

Meta info.
  • Authors: Jinyang Wu, Feihu Che, Chuyuan Zhang, Jianhua Tao, Shuai Zhang, Pengpeng Shao
  • Paper: https://arxiv.org/pdf/2408.13533
  • Affiliation: Tsinghua Univ.
  • Published: August 24, 2024

TL; DR

LLM의 RAG 상황에서 다양한 Noise를 구분하고 분석. 유익한 Noise의 경우 모델 성능이 향상된다는 것을 확인. 벤치마크 NoiserBench를 제시하여 LLM의 Noise 대응 평가 및 유익한 noise는 활용하고 해로운 noise는 줄이는 방법 제시.

image.png

image.png

image.png

image.png

image.png

image.png

Problem States

일반적으로 RAG에서 가정하는 Noise가 정말 모두 유해한가? 유해한 noise와 유익한 noise를 구분할 수 있을까?

Suggestion

  • 언어적 관점에서 7-type의 Noise 정의 Figure 2
    • 유익한 Noise: Semantic Noise (SeN), Datatype Noise (DN), Illegal Sentence Noise (ISN)
      • Semantic Noise (SeN): query와 의미적으로 관련성이 낮은 내용 (주제에서 벗어나거나 의도된 의미에서 벗어난 경우)
      • Datatype Noise (DN): 웹상에서 서로 다른 데이터 유형이 혼합된 경우 (e.g.Wikipedia에서 링크와 텍스트가 혼합된 경우)
      • Illegal Sentence Noise (ISN): 문법적으로 옳지 않은 문장 (e.g. history transform cover managed that hand black)
    • 유해한 Noise:Counterfactual Noise (CN), Supportive Noise (SuN), Orthographic Noise (ON), Prior Noise (PN)
      • Counterfactual Noise (CN): 사실과 다른 정보. 가짜 뉴스, 오래된 정보
      • Supportive Noise (SuN): 주장과 의미적으로 관련성이 높지만 답변 정보는 없는 문서
      • Orthographic Noise (ON): 철자 오류, 단어 길이 변경과 같은 오류
      • Prior Noise (PN): 잘못된 가정이나 전제에 기반한 질문 (e.g. query: 구글이 2017년에 Alphabet으로 구조조정 당시 CEO는 누구? - 구조 조정은 2015년에 발생)
  • NoiserBench 제안 Figure 3
    1. QA Instance Generation: ChatGPT로 모호한 예시 거르면서 QA pair 생성/수집 (PN 제외하고 기존 방법론이 있다는데 자세히 확인해봐야할듯? )
    2. Entailment Verification: NLI model bart-large-mnli-407M로 evidence가entailment인지 확인
    3. Noise Introduction: Google 검색 엔진 등 외부 툴로 각 type에 해당하는 Noise 생성. 가령 CN은 Google 검색 결과에서 entity-relation 추출하고 이와 반대되는 response 생성 후 ChatGPT로 evidence 생성. SuN이나 SeN은 wikipedia dump를 source로 해서 모델 활용하여 검색 or 관련성 필터링 등 진행. ISN은 모델 vocab에서 임의 단어 조합 후 의미 없는 문장 구성. 실제 횡설수설하는 느낌으로 모방 하는 등 Figure 4
    4. Testbeds Construction: free form QA를 객관식으로 변형하는 등, seed dataset으로 구축.
      • Single-hop(1-step reasoning): NQ, RGB
      • Multi-hop(Explicit multi-step reasoning): HotpotQA, 2WikiMQA, Bamboogle
      • Multi-hop(Implicit multi-step reasoning): StrategyQA, TempQA
      • Mixed-hop: PriorQA

Effects

유익한 Noise는 LLM 성능과 reasoning, confidence를 향상시킨다. (유해한 경우는 성능 하락)

  • Experimental Setup:
    • Backbone: 8개 LLM (Llama3-Instruct (8B, 70B), Qwen2-7B-Instruct, Mistral (7B, 8x7B), Vicuna-13B-v1.5, Llama2-13B, Baichuan2-13B)
    • Metric: Accuracy
  • Result:
    • 유익한 Noise는 보다 명확한 reasoning, 표준화된 출력 형식, golden context에 대한 높은 신뢰도 등 모델 성능 향상에 기여
      • Table 1: Llama3-8B-Instruct / Qwen2-7b-Instruct로 7개 데이터셋에서 각 Noise type이 정확도에 미치는 영향 확인. 특히 ISN의 경우 모델 성능 크게 향상
      • Table 4: 통계적 유의성 검증을 위해 Wilcoxon signed-rank test로 확인
      • Table 5: Llama3-8B-instruct에서 유익한 Noise가 있고 없을 때 응답 차이
      • Figure 7: 대부분 ISN 추가되면 성능 향상되고, CN이 있는 환경에서 ISN이 추가되면 더욱 정확도 향상