The Hyperfitting Phenomenon: Sharpening and Stabilizing LLMs for Open-Ended Text Generation

January 31, 2025 1 minute read

Meta info.

Authors: Fredrik Carlsson, Fangyu Liu, Daniel Ward, Murathan Kurfali, Joakim Nivre
Paper: https://openreview.net/pdf?id=Ij9ilPh36h
Affiliation: Google DeepMind, RISE Research Institutes of Sweden, Uppsala Univ.
Published: January 23, 2025

TL; DR

LLM을 작은 사이즈 데이터에 overfitting시키는게 오히려 generation 성능을 향상시킬 수 있다.

Background

통상 과적합은 모델 일반화 성능을 저하키는 것으로 알려짐

Problem States

LLM 생성시 greedy decoding 특성상 반복적인 패턴 생성
이를 방지하기 위해 sampling이나 repetition 제약 등을 적용하지만, 근시안적인 해결에 그침 (prediction distribution을 건들지는 않음)
Research Question: LLM을 아주 작은 데이터셋으로 과적합 시키면 어떻게 될까? 이게 모델이 긴 텍스트 생성 품질 향상에 기여할 수 있나?

Suggestion

Hyperfitting

기존 LLM을 극소량의 데이터셋에 대해 fine-tuning, training loss 거의 0으로 만들도록 학습
일반적인 fine-tuning과 달리 validation loss는 증가했지만, 텍스트 생성 성능(다양성, 일관성)이 향상됨을 확인함.
상대 개념
- Grokking: 훈련 중 일정 시점 이후 갑자기 일반화 성능이 급상승하는 현상
- Double Descent: 과적합 이후 추가 훈련 시 오히려 validation 성능이 회복되는 현상
- (제안)Hyperfitting : training loss 0으로 수렴할 때 일반화 성능 향상되는 현상

Effects

backbone: TinyLlama(1.1B), DeepSeek(7B), Llama 3.1 (8B & 70B) 등…
text 생성 품질 향상
- hyperfitting된 모델은 Greedy Decoding만으로도 일반 모델보다 더 다양하고 품질 높은 텍스트를 생성
- 128-/256-token의 생성 결과에 대해 human evaluation에서도 높은 선호
repetition 문제 해결
- 학습 데이터셋을 그대로 copy하는 비율이 더 적음
- citation blocking (training set 일부를 block)해도 여전히 자연스러운 text 생성
predicted distribution 직접 수정
- 아주 낮은 entropy의 확률 분포를 가짐 = 특정 token을 확실하게 집어서 생성함 (생성시 확률이 높음)
- 이에 따라 perplexity는 늘어도 결과적으로 생성 품질은 향상됐다고.
데이터 의존도 하락
- 2000개 미만 데이터셋으로도 하이퍼 피팅은 가능
- 훈련 데이터 순서만 섞어도 모델 예측 토큰 분포가 크게 달라짐 = 데이터 자체보다 하이퍼 피팅이 모델 예측 방식에 더 큰 영향
- 데이터 종류 (뉴스거나, 픽션이거나)에 차이가 있긴 했지만 유의하다고 볼 증거는 부족함

Personal note. 이미지 데이터에도 써봤다는데 유의한것 같다는 결론까지 꽤 흥미로운 흐름.. metric으로 자주 언급되는 TTR은 type-token ratio라고 생성된 토큰 다양성을 측정하는데 활용됩니다. 높을수록 다양하다는 의미. 구체적인 task에 적용해보지 않았다던가(유용성 측면에서), 실험 모델 사이즈가 작은 쪽 위주였던게 좀 흠인 것 같은데 모델 사이즈 키우고 데이터셋 사이즈도 보다 키웠을 때 어떤 양상을 띌지 확인해볼 필요는 있어 보입니다. (70B 모델 결과도 최근 업데이트 됨) 저자들도 추가 실험과 추세 확인이 필요하다는 부분은 인정하고 있습니다. 구현체가 아직 없긴 한데 구현이 어려울 것 같지는 않습니다.