1 minute read

Meta info.
  • Authors: Jiri Hron, Laura Culp, Gamaleldin Elsayed, Rosanne Liu, Jasper Snoek, Simon Kornblith, et al.
  • Paper: https://arxiv.org/pdf/2408.07852
  • Affiliation: Google DeepMind
  • Published: August 14, 2024
  • Conference: COLM2024

TL; DR

모델 사이즈가 크고 학습 시간이 길수록 hallucination이 덜 발생하는 건 맞지만, 이를 5%이하의 낮은 수준으로 줄이려면 (일반적으로 알려진 scaling law보다) 훨씬 더 큰 모델과 더 많은 컴퓨팅 자원이 필요하다.

image.png

image.png

image.png

Problem States

LLM의 hallucination은 일반적인 scaling law처럼 모델 사이즈나 데이터셋 크기가 충분히 크면 해결되는가?

Suggestion

knowledge graph로 학습 정보를 통제하여 확인

  • Knowledge graph를 3-level로 구분
    • Fully Visible Set (FVS): LM과 detector 모두 학습
    • Partially Visible Set (PVS): LM만 학습
    • Invisible Set (IVS): LM / detector 모두 학습하지 않음
  • special token으로 triple 정의
  • 절차
    1. non-duplicated & unique information이 되도록 통제된 triplets string를 scratch부터 LM 학습 (classic language modeling loss)
    2. input으로 subject, predicate를 주고 output으로 object 예측
    3. detector를 학습하여 평가에 활용: training set에 없는 s-p-~인 경우 hallucination으로 간주
      • 자연어를 학습한다면 정량화하기 어렵지만, triplet이므로 제어가능하고 정확성 측정 가능
      • detector: detect-head를 추가하거나 별도로 학습하는 방식

Effects

모델 사이즈와 학습 시간이 길수록 hallucination이 덜 발생하는 건 맞지만 hallucination을 낮은 수준 (5%이하)로 줄이려면 알려진 scaling law보다 훨씬 더 큰 모델과 더 많은 컴퓨팅 자원이 필요하다.

  • scaling law에서 발견됐던 모델 크기나 학습 시간 증대에 따른 효과(hallucination 감소)가 바로 나타나진 않음.
    • 데이터셋 크기가 커지면 오히려 hallucination 증가 (어찌보면 당연) + training loss 역시
  • (역시 당연한데) 학습을 늘릴수록 hallucination 감소에는 도움되지만, generalization(모델이 가지는 다른 기능들) 효과는 감소
    • 즉, hallucination을 줄이는 것과 generalization 을 손상시키지 않는 사이의 trade-off 중간점을 정하는 문제
    • 이 Trade-off는 모델이 클수록 + 학습이 길수록 경향성 강화
  • 큰 LM일수록 Detector가 hallucination을 더 못감지함
    • 토큰단위보다 문장단위로 hallucination을 평가하는 성능이 더 좋다고

Personal note. scratch부터 가정하긴 했지만 LM의 hallucination을 entity 채우기(?) 정도로 단순화할 수 있는건지 잘 모르겠으면서도, 그 의문을 제외하면 결과와 흐름은 자연스러운 연구인 것 같습니다. 다만 그 단순화 가정 자체가 매우 한정성을 띄기 때문에, LM의 다른 일반화 능력과 비교한 시도가 일반적인 language modeling으로 확장할 때 타당한지는 의문스럽습니다🤔