less than 1 minute read

Meta info.

TL; DR

Naively finetune strong pretrained models on labels generated by a weak model consistently perform better than their weak supervisors.

Untitled

Suggestions

  • β€œν•™μŠ΅ 데이터 ν’ˆμ§ˆμ΄ λͺ¨λΈ μ„±λŠ₯의 μ£Όμš” μš”μΈμΈκ°€?” 에 λŒ€ν•΄, 아닐 μˆ˜λ„ μžˆλ‹€κ³  μ£Όμž₯.
  • 이미 잘 κ΅¬μΆ•λœ 큰 λͺ¨λΈμ΄λΌλ©΄ μƒλŒ€μ μœΌλ‘œ 질 λ‚˜μœ λ°μ΄ν„°λ‘œλ„ 쒋은 μ„±λŠ₯을 λ‚Ό 수 μžˆλ‹€.

Personal note. β€œμ΄ˆμ§€λŠ₯ VS 인간” 에 λŒ€ν•œ 고민을 ν•  수 μžˆλŠ” λ…Όλ¬Έ

  • 덜 λ˜‘λ˜‘ν•œ 인간이 더 λ˜‘λ˜‘ν•œ AI λ₯Ό κ΄€λ¦¬ν•˜λŠ” 상황 => μž‘μ€ LLM λͺ¨λΈλ‘œ 큰 LLM λͺ¨λΈμ„ κ°λ…ν•˜λŠ” 방법을 κ³ μ•ˆν•˜κ³  μ‹€ν—˜
  • Human feedback이 μžμ›μ μœΌλ‘œ μ–΄λ €μš΄λ° LLM도 μž˜ν•˜κΈ° λ•Œλ¬Έμ— RLAIF ν•˜λŠ” μΆ”μ„Έμ—μ„œ, 였히렀 μžμ›λ•Œλ¬Έμ΄ μ•„λ‹ˆλΌ κ·Έλƒ₯(λ‘λ²ˆμ§Έ bulleted list의 이유둜) RLAIFκ°€ μ ν•©ν•˜λ‹€λŠ” μ—­λ°œμƒ(?)이 μ’‹μ•˜λ˜ 것 κ°™μŒ