Scaling Laws of Synthetic Data for Language Models
Meta info.
- Authors: Zeyu Qin, Qingxiu Dong, Xingxing Zhang, Li Dong, Xiaolong Huang, Ziyi Yang, Mahmoud Khademi, Dongdong Zhang, Hany Hassan Awadalla, Yi R. Fung, Weizhu Chen, Minhao Cheng, Furu Wei
- Paper: https://arxiv.org/pdf/2503.19551
- Affiliation: HKUST, Microsoft, Peking Univ, Pennsylvania State Univ.
- Published: March 26, 2025
TL; DR
SYNTHLLM ๋ฐฉ์์ผ๋ก ์์ฑํ ํฉ์ฑ๋ฐ์ดํฐ๋ LLM finetuning์ ๋ํด ์์ธก ๊ฐ๋ฅํ๊ณ ํจ๊ณผ์ ์ผ๋ก scale ๋๊ณ , ์์ ํ scaling law์ ๋ฐ๋ผ natural data ๋ถ์กฑ์ ๋ํ ํ์ฅ๊ฐ๋ฅํ ์๋ฃจ์
์ด ๋๋ค๊ณ ์ฃผ์ฅ









Background
LLM ์๋ ์ดํ๋ก ํฉ์ฑ๋ฐ์ดํฐ ์์ฑํด์ ์ฐ๋ ํ๋ฆ์ด ์ผ๋ฐ์ ์ธ ์ถ์ธ๊ฐ ๋์์ผ๋, natural data๋งํผ ๋ง์์๋ก ์ข์์ง๋ ๋ฐํ์ง ๋ฐ๊ฐ ์์
- ์ต๊ทผ ์ฐ๊ตฌ(Lin et al., 2024)์์ scaling law๋ฅผ fine-tuning์๋ ์ ์ฉํ ์ฐ๊ตฌ๋ฅผ ๋ฐํ์ ๋
- ๊ธฐ์กด scaling law์ ์ฐ๊ตฌ๋ ๋ฐ์ดํฐ์ ๋ชจ๋ธ ์ฌ์ด์ฆ์ ์์ธก ๊ฐ๋ฅ์ฑ์ ์ ์ํ์ง๋ง ์ด๋ natural data = organic data์ ๋ํ ์ ์ฉ
- synthetic data๋ ์๋๋ก human-annotated data๋ฅผ ์ฃผ๊ณ ์์ฑํด์ ๊ท๋ชจ๋ ๋ค์์ฑ์ด ์ ํ์ ์ด๋ผ๊ณ ๋ณด๋ ์๊ฐ์ด ์ผ๋ฐ์
- ์ต๊ทผ ์์ง์ pretrainig data ๊ณ ๊ฐ ๋ฌธ์ ๋ ์ฃผ์ ๊ด์ฌ <- synthetic ๋ฐ์ดํฐ๋ก ํด๊ฒฐ ๊ฐ๋ฅ์ฑ ๊ฒํ
Problem States
RQ1ย synthetic data๋ ๊ฐ์ scaling law๋ฅผ ๋ฐ๋ฅผ ์ ์๋?RQ2ย synthetic data ์์ฑ์ ํ์ํ seed๊น์ง๋ human ๋ฐฐ์ ํ๊ณ web-scale๋ก ํ ์ ์์๊น?
Suggestions
RQ1ย Scaling Law of Synthetic Data: SFT setup์์ synthetic data์ ์๊ณผ ๋ชจ๋ธ ์ฑ๋ฅ๊ฐ ์์ธก๊ฐ๋ฅํ ์๊ด๊ด๊ณ๊ฐ ์๋๊ฐ? (ํฉ์ฑ๋ฐ์ดํฐ ์ฌ์ด์ฆ๊ฐ ๋์ด๋๋ฉด ๋ชจ๋ธ ์ฑ๋ฅ๋ ์ข์์ง๋๊ฐ?) >ย YES- synthetic data๋ย Lin et al., 2024์ Rectified Scaling Law๋ฅผ ๋ฐ๋ฆย
pic2- ์ฆ ๋ฐ์ดํฐ๊ฐ ๋์๋ก ๋ชจ๋ธ ์ฑ๋ฅ๋ ์์ธก๊ฐ๋ฅํ๊ฒ ํฅ์๋จย
Fig 1,2
- ์ฆ ๋ฐ์ดํฐ๊ฐ ๋์๋ก ๋ชจ๋ธ ์ฑ๋ฅ๋ ์์ธก๊ฐ๋ฅํ๊ฒ ํฅ์๋จย
- ๋ค๋ง 300B ํ ํฐ์ด ๋์ด์๋ฉด ์ทจํด์ง๋ ์ด๋์ด ์ค๊ธฐ ์์ (์ฑ๋ฅ ํฅ์ ํญ์ด ์ค์ด๋ฆ)
- ๋ ํฐ๋ชจ๋ธ์ด ์ต๊ณ ์ฑ๋ฅ ๋ฟ๋๋ฐ๊น์ง ํ์ํ ํฉ์ฑ๋ฐ์ดํฐ ์์ด ๋ ์ ์์ (๋ ๋นจ๋ฆฌ ๋๋ฌํ๋ค๋ ์๋ฏธ๋ก ์ดํด): 8B๋ 1T์์ ์ํ์ด์๋๋ฐ 3B๋ ๋น์ทํ ์ฑ๋ฅ์ ๋๋ฌํ๋ ค๋ฉด 4T๊น์ง ํ์ํ๋ค๊ณ ย
Tab 1 - ๊ฝค ์ ํํ๊ฒ ๊ท๋ชจ ๋๋น ์ฑ๋ฅ ํฅ์ ์์ธก ๊ฐ๋ฅย
Tab 1ยFig 2 - ์คํ์์ ์ฌ์ฉํ ํฉ์ฑ๋ฐ์ดํฐ๋ย SYNTHLLM์ผ๋ก ๊ตฌ์ถ๋จ
- synthetic data๋ย Lin et al., 2024์ Rectified Scaling Law๋ฅผ ๋ฐ๋ฆย
RQ2ย SYNTHLLMย (web-scale synthetic data generation framework): organic data๋ฅผ synthetic data๋ก ๋์ฒดํ๊ธฐ ์ํด ๋ค์ํ๊ณ ํ์ฅ๊ฐ๋ฅํ ๋๊ท๋ชจ ์์ฑํ๊ธฐ- Reference Document Filtering: ๋ณ๋ classifier ํ์ตํด์ Fineweb-Edu ๊ฐ์ ์น ๋ฐ์ดํฐ ์ ์ฅ์์์ ์ํ ๊ฐ์ ํน์ ๋๋ฉ์ธ์ ๊ณ ํ์ง ๋ฌธ์ ํํฐ๋ง
- Document-Grounded Question Generation: ๋ฌธ์์์ ์ค์ํ ๊ฐ๋
์ผ๋ก question ๋ง๋ค๊ธฐ
- Lv.1: ๋ฌธ์์์ ์ง์ ์ง๋ฌธ ์ถ์ถ (๊ฐ์ฅ ๊ธฐ๋ณธ์ ์ธ ๋ฐฉ์)
- Lv.2: ๋ฌธ์์ ์ ํต์ฌ ๊ฐ๋ ๋ง ์ถ์ถ > ๋ฌด์์ ์กฐํฉ > ์ง๋ฌธ์์ฑ
- Lv.3: ๋ฌธ์์์ ๊ฐ๋ ๋ค์ ์ฐ๊ฒฐํ ๊ทธ๋ํ ๊ตฌ์ถ(Global Concept Graph Construction) > random walk์ผ๋ก ๋ค์ํ ๊ฐ๋ ์กฐํฉ ์์ฑ(Concept Combination Sampling) > ์ง๋ฌธ์์ฑ (๊ฐ์ฅ ๋ค์ํ๊ณ ์ค์ผ์ผ ํ์ฅ์ฑ ๋ณด์ฅ๋๋ค๊ณ ์ฃผ์ฅ)
- Answer Generation: open-sourced LLM์ผ๋ก ๋ต๋ณ ์์ฑ
Effects
- ๊ธฐ์กด ์ฆ๊ฐ ๋ฐฉ๋ฒ๋ณด๋ค SYNTHLLM์ด (์ง๋ฌธ) ๋ค์์ฑ
Fig 5๊ณผ ํ์ฅ์ฑFig 6์์ ์ฐ์ - ์ ์ ๋ฐฉ์์ผ๋ก ๊ตฌ์ถํ ํฉ์ฑ๋ฐ์ดํฐ๋ก ํ์ตํ ๋ชจ๋ธ ์ฑ๋ฅ์ด ๋์ฒด๋ก๋ ๊ฐ์ฅ ์ฐ์ํ๊ฑฐ๋ ๋น์ทํ๊ณ , ๊ท๋ชจ๊ฐ ์ปค์ง์๋ก ๊ฒฝ์ฐ ์ค์ ์ฑ๋ฅ๋ ์ข์์์ ์ฆ๋ช
ย
Tab 2,3- backbone: Llama-3.2-1B, Llama-3.2-3B, Llama-3.1-8B
- target task: Mathematical Reasoning
- baseline datasets: OpenMathInstruct-2, MAmmoTH2, NaturalReasoning, JiuZhang 3.0, NuminaMath ๋ฑ
Personal note. mathematical reasoning์ ํ์ ๋ ์คํ์ธ๊ฑด ๋ค์ ์ ํ์ ์ผ๋ก ๋ณด์ฌ์ง ์ฌ์ง๋ ์์ง๋ง, ๋ค๋ฅธ QA task์์๋ ๋น์ทํ ์ถ์ธ๋ฅผ ํ์ธํ ์ ์์ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค.