Scaling Laws of Synthetic Data for Language Models

March 26, 2025 2 minute read

Meta info.

Authors: Zeyu Qin, Qingxiu Dong, Xingxing Zhang, Li Dong, Xiaolong Huang, Ziyi Yang, Mahmoud Khademi, Dongdong Zhang, Hany Hassan Awadalla, Yi R. Fung, Weizhu Chen, Minhao Cheng, Furu Wei
Paper: https://arxiv.org/pdf/2503.19551
Affiliation: HKUST, Microsoft, Peking Univ, Pennsylvania State Univ.
Published: March 26, 2025

TL; DR

SYNTHLLM 방식으로 생성한 합성데이터는 LLM finetuning에 대해 예측 가능하고 효과적으로 scale 되고, 수정한 scaling law에 따라 natural data 부족에 대한 확장가능한 솔루션이 된다고 주장

Background

LLM 시대 이후로 합성데이터 생성해서 쓰는 흐름이 일반적인 추세가 되었으나, natural data만큼 많을수록 좋은지는 밝혀진 바가 없음

최근 연구(Lin et al., 2024)에서 scaling law를 fine-tuning에도 적용한 연구를 바탕에 둠
기존 scaling law의 연구는 데이터와 모델 사이즈의 예측 가능성을 제안했지만 이는 natural data = organic data에 대한 적용
synthetic data는 시드로 human-annotated data를 주고 생성해서 규모나 다양성이 제한적이라고 보는 시각이 일반적
최근 양질의 pretrainig data 고갈 문제도 주요 관심 <- synthetic 데이터로 해결 가능성 검토

Problem States

RQ1 synthetic data도 같은 scaling law를 따를 수 있나?
RQ2 synthetic data 생성시 필요한 seed까지도 human 배제하고 web-scale로 할 수 있을까?

Suggestions

RQ1 Scaling Law of Synthetic Data: SFT setup에서 synthetic data의 양과 모델 성능간 예측가능한 상관관계가 있는가? (합성데이터 사이즈가 늘어나면 모델 성능도 좋아지는가?) > YES
- synthetic data는 Lin et al., 2024의 Rectified Scaling Law를 따름 pic2
  - 즉 데이터가 늘수록 모델 성능도 예측가능하게 향상됨 Fig 1,2
- 다만 300B 토큰이 넘어서면 취해지는 이득이 줄기 시작 (성능 향상 폭이 줄어듦)
- 더 큰모델이 최고성능 닿는데까지 필요한 합성데이터 양이 더 적었음 (더 빨리 도달한다는 의미로 이해): 8B는 1T에서 상한이었는데 3B는 비슷한 성능에 도달하려면 4T까지 필요했다고 Tab 1
- 꽤 정확하게 규모 대비 성능 향상 예측 가능 Tab 1 Fig 2
- 실험에서 사용한 합성데이터는 SYNTHLLM으로 구축됨
RQ2 SYNTHLLM (web-scale synthetic data generation framework): organic data를 synthetic data로 대체하기 위해 다양하고 확장가능한 대규모 생성하기
1. Reference Document Filtering: 별도 classifier 학습해서 Fineweb-Edu 같은 웹 데이터 저장소에서 수학 같은 특정 도메인의 고품질 문서 필터링
2. Document-Grounded Question Generation: 문서에서 중요한 개념으로 question 만들기
  1. Lv.1: 문서에서 직접 질문 추출 (가장 기본적인 방식)
  2. Lv.2: 문서애서 핵심 개념만 추출 > 무작위 조합 > 질문생성
  3. Lv.3: 문서에서 개념들을 연결한 그래프 구축(Global Concept Graph Construction) > random walk으로 다양한 개념 조합 생성(Concept Combination Sampling) > 질문생성 (가장 다양하고 스케일 확장성 보장된다고 주장)
3. Answer Generation: open-sourced LLM으로 답변 생성

Effects

기존 증강 방법보다 SYNTHLLM이 (질문) 다양성Fig 5과 확장성Fig 6에서 우위
제안 방식으로 구축한 합성데이터로 학습한 모델 성능이 대체로는 가장 우수하거나 비슷했고, 규모가 커질수록 경우 실제 성능도 좋았음을 증명 Tab 2,3
- backbone: Llama-3.2-1B, Llama-3.2-3B, Llama-3.1-8B
- target task: Mathematical Reasoning
- baseline datasets: OpenMathInstruct-2, MAmmoTH2, NaturalReasoning, JiuZhang 3.0, NuminaMath 등

Personal note. mathematical reasoning에 한정된 실험인건 다소 제한적으로 보여질 여지는 있지만, 다른 QA task에서도 비슷한 추세를 확인할 수 있을 것으로 기대됩니다.