1 minute read

Meta info.
  • Authors: Bradley Brown, Jordan Juravsky, Ryan Ehrlich, Ronald Clark, Quoc V. Le, Christopher RΓ©, Azalia Mirhoseini
  • Paper: https://openreview.net/pdf?id=0xUEBQV54B
  • Affiliation: Google DeepMind, Stanford Univ., Univ. of Oxford
  • Published: July 31, 2024

TL; DR

Repeated Sampling이 LLM μ„±λŠ₯μ—μ„œ coverage 츑면의 효용이 맀우 크고, μžλ™ verification이 κ°€λŠ₯ν•œ 경우 μ •ν™•λ„κΉŒμ§€ 크게 ν–₯μƒμ‹œν‚¨λ‹€.

image.png

image.png

image.png

image.png

image.png

image.png

Suggestion

μžμ›λ§Œ μΆ©λΆ„ν•˜λ‹€λ©΄ κ°€λŠ₯ν•œν•œ λ§Žμ€ μ‹œν–‰μ—μ„œ 닡을 찾자(rapeated sampling)

  • ν•˜λ‚˜μ˜ λ¬Έμ œμ— λŒ€ν•΄ μ—¬λŸ¬ 개의 μƒ˜ν”Œ 닡변을 μƒμ„±ν•˜κ³ (μƒ˜ν”Œ 생성)
  • 이 μ€‘μ—μ„œ κ°€μž₯ μ μ ˆν•œ 닡변을 선택(검증)
    • unit test, execution, majority vote, reward model, …

Effects

μ •ν™•ν•˜κ³  효율적인 검증법 수반이 ν•„μˆ˜μ 

  • Experimental Setup:
    • Task: μˆ˜λ¦¬μΆ”λ‘ (GSM8K, MATH), 증λͺ…(MiniF2F-MATH), μ½”λ”©(CodeContest), μ‹€μ œ GitHub 이슈 ν•΄κ²°(SWE-bench Lite)
    • Target Model: 70M-70B의 Llama, Gemma, Pythia
  • Results:
    • λ•Œμ— λ”°λΌμ„œλŠ” μž‘μ€ λͺ¨λΈλ‘œ 더 많이 μ‹œν–‰ν•˜κ³  닡을 μΆ”λ €λ‚΄λŠ”κ²Œ, 큰 λͺ¨λΈ μ“°λŠ” 것보닀 λ‚«λ‹€.
    • 컀버리지와 μƒ˜ν”Œ 수 사이 power law μ œμ‹œ(Figure 5)
    • μžλ™κ²€μ¦ κ°€λŠ₯ν•œ 경우 (λ…Όλ¬Έμ—μ„œ μˆ˜λ¦¬μΆ”λ‘  μ™Έμ˜ task)
      • μƒ˜ν”Œ 수 증가에 따라 단일 μ‹œλ„λ‘œ ν•΄κ²°λͺ»ν–ˆλ˜ 문제 ν•΄κ²°
      • 더 크고 κ°•ν•œ λͺ¨λΈμ˜ 단일 μ‹œλ„λ³΄λ‹€ 높은 μ„±λŠ₯ 달성
      • 즉, 정밀도가 μ‹œν–‰νšŸμˆ˜μ— λΉ„λ‘€ν•΄μ„œ 증가
      • e.g. DeepSeek-Coder-V2-Instruct λ‹¨μΌμ‹œλ„ μ„±λŠ₯ 15.9% > 250회 μ‹œν–‰μ‹œ μ„±λŠ₯56% 증가 (+43%p)
    • μžλ™κ²€μ¦ 툴 λΆ€μž¬ν•œ μˆ˜λ¦¬μΆ”λ‘ μ˜ 경우,
      • μƒ˜ν”Œ 수 증가에 따라 μ»€λ²„λ¦¬μ§€λŠ” 늘긴 ν•˜λŠ”λ°
      • 정밀도 μΈ‘λ©΄μ—μ„œ majority voteλ‚˜ reward model μ‚¬μš©ν•˜λŠ”κ±΄ 도달 μ„±λŠ₯ μƒν•œμ΄ μžˆλŠ”λ“―

Personal note. λ°˜λ³΅μ‹œν–‰μ—μ„œ λ§žλŠ” 닡을 μ–΄λ–»κ²Œ μ°Ύμ•„λ‚΄λŠλƒκ°€ λ¬Έμ œλΌλŠ” ꡉμž₯히 λ‹Ήμ—°ν•œ 이야기λ₯Ό ν•˜κ³  μžˆλŠ”λ° μ œλŒ€λ‘œ 닡변을 뽑아낼 수만 μžˆλ‹€λ©΄ μž‘μ€ λͺ¨λΈλ‘œ μ‹œν–‰νšŸμˆ˜λ₯Ό λŠ˜λ¦¬λŠ” 편이 λ‚˜μ„ 수 μžˆλ‹€λŠ” κ±Έ μ‹€ν—˜μœΌλ‘œ λ³΄μ—¬μ„œ μˆ˜μ‹ν™”κΉŒμ§€ μ§„ν–‰ν•œ 점이 논리적인 섀득λ ₯을 높인 것 κ°™μ•„μš”.