1 minute read

Meta info.

TL; DR

์ž‘์ง€๋งŒ ์ข‹์€ ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ ์ˆ˜๋ฆฌ์ถ”๋ก  ๋Šฅ๋ ฅ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ = ๋ชจ๋ธ์ด ์ด๋ฏธ ์•Œ๊ณ  ์žˆ๋Š” ๊ฑธ ์ž˜ ๋„์ง‘์–ด๋‚ด๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•˜๋‹ค.

image.png

image.png

image.png

image.png

image.png

image.png

Background

๊ณ ๊ธ‰ ์ˆ˜๋ฆฌ์ถ”๋ก ์„ ์œ„ํ•ด์„œ๋Š” ์•ฝ ์ˆ˜์‹ญ๋งŒ ์˜ˆ์ œ๊ฐ€ ํ•„์š”ํ•˜๋‹ค๋Š” ํ†ต๋… + RL or scaling ์œ„์ฃผ

Problem States

๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ ์—†์ด LLM์— ๋ณต์žกํ•œ ์ˆ˜๋ฆฌ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์„๊นŒ?

  • SFT๊ฐ€ ๋‹จ์ˆœ ์•”๊ธฐ๋ฅผ ํ•˜๋Š”๊ฑธ๊นŒ?
  • ์ง€๋‚œย LIMA (Zhou et al. 2024)ย ์ฒ˜๋Ÿผ ์ƒ๋Œ€์ ์œผ๋กœ ์ž‘์ง€๋งŒ ํ’ˆ์งˆ ์ข‹์€ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ด alignment๊ฐ€ ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ์—ฐ๊ตฌ์˜ ์ˆ˜๋ฆฌ์ถ”๋ก  ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์— ๋Œ€ํ•œ ์—ฐ๊ตฌ ๋ฏธ๋น„ย Tab1

Suggestions

Less-Is-More Reasoning Hypothesisa

  • ๊ฐ€์„ค: LLM์ด ์ถฉ๋ถ„ํ•œ ์‚ฌ์ „ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค๋ฉด, ์†Œ๋Ÿ‰์˜ ๊ณ ํ’ˆ์งˆ ์˜ˆ์ œ๋งŒ์œผ๋กœ๋„ ๊ณ ์ฐจ์› ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ™œ์„ฑํ™”ํ•  ์ˆ˜ ์žˆ๋‹ค.
    • ๋ชจ๋ธ์ด ์‚ฌ์ „ ํ›ˆ๋ จ ๊ณผ์ •์—์„œ ์ถฉ๋ถ„ํ•œ ๋„๋ฉ”์ธ ์ง€์‹์„ ๋‚ด์žฌํ•˜๊ณ  ์žˆ์–ด์•ผ ํ•œ๋‹ค.
    • ์ ์€ ์–‘์ด๋”๋ผ๋„ ์ตœ์ ์˜ ์˜ˆ์ œ๋ฅผ ์ถ”๋ ค์ฃผ๋ฉด ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํšจ๊ณผ์ ์œผ๋กœ ํ–ฅ์ƒํ•  ์ˆ˜ ์žˆ๋‹ค.
      • L5 (good) ~ L1 (poor): ํ’ˆ์งˆ์€ ์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€๊ฐ€ ๋ณด๊ณ  llm ๊ธฐ๋ฐ˜ ํ•„ํ„ฐ๋ง ์ˆ˜ํ–‰
  • LIMO setup
    • backbone: Qwen2.5-32B-Instruct
    • SFT datasets: 817๊ฐœ์˜ ๊ณ ํ’ˆ์งˆ ์ˆ˜ํ•™ ๋ฌธ์ œ ๋ฐ์ดํ„ฐ์…‹ ์ถ”๋ฆฌ๊ธฐ

Effects

  • Experiment setup
    • Task: AIME24, MATH500, OlympiadBench, GPQA, โ€ฆ..
    • ๋น„๊ต ๋ชจ๋ธ: OpenAI-o1-preview, QwQ-32B-Preview, NuminaMath (100K ์ƒ˜ํ”Œ), OpenThoughts (114K ์ƒ˜ํ”Œ)
  • results: LIMO ๋ชจ๋ธ์ด ๊ธฐ์กด SFT ๋ชจ๋ธ๋ณด๋‹ค ์ข‹์€ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ
    • ๋‹จ 817๊ฐœ๋งŒ ์ผ๋Š”๋ฐ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹(100K+)๋กœ ํ•™์Šตํ•œ ๋ชจ๋ธ๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅย Tab3
    • RQ1 reasoning chain quality (ํ’€์ด ํ’ˆ์งˆ):์ข‹์€ ํ’ˆ์งˆ์˜ ํ’€์ด ๊ณผ์ •์„ ๋ฐฐ์šธ์ˆ˜๋ก ์„ฑ๋Šฅ ํ–ฅ์ƒ ํ™•์ธย Fig2
      • L5 (์ตœ๊ณ ํ’ˆ์งˆ) ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ํ•™์Šตํ•œ ๋ชจ๋ธ์ด L1(์ตœ์ € ํ’ˆ์งˆ) ํ•™์Šตํ•œ ๊ฒƒ ๋Œ€๋น„ AIME์—์„œ 15%p, MATH500์—์„œ 12%p๊นŒ์ง€ ๋†’์€ ์„ฑ๋Šฅ
    • RQ2 question quality (๋ฌธ์ œ ํ’ˆ์งˆ): ์‰ฌ์šด๋ฌธ์ œ๋ณด๋‹ค ์–ด๋ ค์šด ๋ฌธ์ œ ๋ฐฐ์šธ ๋•Œ ๋ชจ๋ธ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ ํ–ฅ์ƒย Fig3
      • AIME24์—์„œ simple500 ํ•™์Šต์‹œ 35%, advanced500 ํ•™์Šต์‹œ 51.5% ๋‹ฌ์„ฑ
    • RQ3 LLM backbone (PTM): backbone์ด ์ข‹์„์ˆ˜๋ก ์„ฑ๋Šฅ ํ–ฅ์ƒย Fig4
      • AIME24์—์„œ Qwen2.5-32B-Instruct > Qwen1.5-32B-Chat ๋Œ€๋น„ 47.1%p ํ–ฅ์ƒ
    • CASE STUDYย Fig5ย : LIMOํ•˜๋ฉด self-reflection ํ•˜๊ธฐ๋„ ํ–ˆ๋‹ค๊ณ 
      • ๋‹น์—ฐํžˆ ๊ทธ๋Ÿฐ ๋ฐ์ดํ„ฐ๋ฅผ ๋‚จ๊ฒจ์„œ ํ•™์Šต์‹œ์ผฐ์œผ๋‹ˆ..ย (Wait, let me check again, โ€ฆ)

Personal note. meta์—์„œ ๋‚˜์™”๋˜ LIMA์˜ ์ฃผ์žฅ์„ ๋’ท๋ฐ›์นจํ•˜๋Š” ํ›„์† ๋…ผ๋ฌธ๋“ค์ด ๊ณ„์† ๋‚˜์˜ค๊ณ  ์žˆ๋Š”๋ฐ, ์˜์˜๋Š” ํ•ญ์ƒ ๋น„์Šทํ•˜๊ฒŒ ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ์— ๋Œ€ํ•œ ๊ฐ•์กฐ๋กœ ์ˆ˜๋ ดํ•˜๋Š” ๊ฒƒ ๊ฐ™์Šต๋‹ˆ๋‹ค. AI-gen ๋ฐ์ดํ„ฐ๊ฐ€ ๊ฒฐ๊ตญ garbage in garbage outํ•˜๊ฒŒ ๋œ๋‹ค๋Š” ์ ์„ ๊ฒฝ๊ณ„๋˜์–ด์•ผ ํ•  ๊ฒƒ ๊ฐ™๊ธด ํ•œ๋ฐ, ๋ฌธ์ œ๋ผ๋ฉด ์•„์ง์€ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ๋ฅผ ๋งŒ๋“œ๋Š” ๋ฐ ํ˜น์€ ๊ฑฐ๋ฅด๋Š” ๋ฐ์— ๋น„์šฉ์ด ์ž‘์ง€ ์•Š๋‹ค๋Š” ์  ๊ฐ™์Šต๋‹ˆ๋‹ค.