less than 1 minute read

Meta info.

TL; DR

causal language modeling objective λŒ€μ‹  Goldfish Loss μ œμ•ˆ, μ•”κΈ°λŒ€λ‘œ μƒμ„±ν•΄λ‚΄λŠ” 방식 μ™„ν™”

Untitled

Untitled

Untitled

Untitled

Suggestions

  • ν•™μŠ΅ν•  λ•Œ loss κ³„μ‚°μ—μ„œ μž„μ˜ token subset은 μ œμ™Έν•˜κ³  계산 β†’ long sequence μž¬μƒμ„±ν•˜λŠ” 이슈 λ°©μ§€
    • ν•™μŠ΅λ•Œ νŠΉμ • 토큰에 μ§€λ‚˜μΉ˜κ²Œ μ§‘μ€‘ν•˜λŠ” 문제 μ™„ν™”
    • subset 선택이 μ„±λŠ₯에 직접적인 영ν–₯
    • G masking - λ…Όλ¬Έμ—μ„œλŠ” λ‹¨μˆœν•˜κ²Œ λ§€ k-th 토큰 λ“œλž
  • downstream task μ„±λŠ₯ ν•˜λ½ 거의 μ—†μŒ
  • μ•„λ§ˆ standard 방식 λŒ€λΉ„ μΆ©λΆ„ν•œ ν•™μŠ΅μ— μ‹œκ°„μ΄ 더 였래걸릴 건 자λͺ…ν•œ 사싀…