2 minute read

Meta info.

TL; DR

long input์— ๋Œ€ํ•œ response์˜ ์‚ฌ์‹ค์„ฑ ํ‰๊ฐ€ ๋ฒค์น˜๋งˆํฌ ์ œ์•ˆ. ์ตœ๋Œ€ 32K token์˜ ์ž…๋ ฅ ์ฒ˜๋ฆฌ, ์ž๋™ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ ๊ณต๊ฐœ

image.png

image.png

image.png

image.png

Task Goal

๊ธด ์ž…๋ ฅ์— ๋Œ€ํ•ด ์‚ฌ์‹ค์ ์œผ๋กœ ์ •ํ™•ํ•œ ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•˜๋Š” LLM ๋Šฅ๋ ฅ ํ‰๊ฐ€

Dataset construction

ํ‰๊ท  2.5K, ์ตœ๋Œ€ 32K token์˜ ๊ธˆ์œต, ๊ธฐ์ˆ  ๋“ฑ ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์˜ context ์ž…๋ ฅ โ†’ response ์ถœ๋ ฅํ•˜๋„๋ก

  • task: QA, ๋ฌธ์„œ ์žฌ์ž‘์„ฑ, ์š”์•ฝ ๋“ฑ ๊ธฐ์กด QA ์Šคํƒ€์ผ์— ๊ตญํ•œ๋œ task๋ฅผ ๋ถ„์„, ๋น„๊ต ๋“ฑ ๋‹ค์–‘ํ•˜๊ฒŒ ํ™•๋Œ€ย Figure 1
  • prompt: context + request + few-shot + instruction
    • instruction: ๋ชจ๋ธ์ด โ€˜์™ธ๋ถ€ ์ง€์‹์„ ํฌํ•จํ•˜์ง€ ์•Š๊ณ โ€™ ์ฃผ์–ด์ง„ ์ปจํ…์ŠคํŠธ์—์„œ๋งŒ ์‘๋‹ต์„ ์ƒ์„ฑํ•˜๋„๋ก ์ง€์‹œ
      • ๋…ผ๋ฌธ์—์„œ๋Š” ์™ธ๋ถ€์ง€์‹์ด๋ผ๊ณ  ํ–ˆ๋Š”๋ฐ, ๋งฅ๋ฝ์ƒ โ€˜์ค€ context ์™ธ์˜ ๋ชจ๋“  ์ง€์‹โ€™์„ ๋งํ•˜๋Š”๊ฒƒ์œผ๋กœ ๋ณด์ด๊ณ 
      • ์ฆ‰ black box ์ƒํ™ฉ์—์„œ ์™ธ๋ถ€ ์ง€์‹์„ ๊ฒ€์ƒ‰ํ•ด์˜ค๋Š” ๊ฒฝ์šฐ๋‚˜ ๋ชจ๋ธ ๋‚ด๋ถ€ ์‚ฌ์ „ํ•™์Šต ์ง€์‹๋„ ์“ฐ์ง€ ๋ง๋ผ๊ณ  ํ•˜๊ณ ์‹ถ์—ˆ๋˜ ๋“ฏ.
  • validation: ๊ตฌ์ถ•ํ•œ ๋ชจ๋“  ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•ด ์ง์ ‘ ์ธ๊ฐ„์ด ํ™•์ธ โ†’ ์˜๋„์— ๋งž์ง€ ์•Š๋Š” ๋ชจ๋“  few-shot ์˜ˆ์‹œ ์‚ญ์ œ
    • request๊ฐ€ ์ ๋‹นํžˆ ์–ด๋ ต๊ณ  instruction์ด ์ œ๋Œ€๋กœ ๋ฐ˜์˜๋˜๋ฉด์„œ ๋„ˆ๋ฌด ๋ณต์žกํ•œ ์ถ”๋ก ์„ ์š”๊ตฌํ•˜์ง€๋Š” ์•Š๋„๋ก + OCR๊นŒ์ง€ ํ•„์š”ํ•œ PDF ๋ฌธ์„œ ์ œ์™ธ ๋“ฑ
  • contamination ๊ณ ๋ ค: ๋‹น์—ฐํžˆ ์›น์ˆ˜์ง‘ ๊ธฐ๋ฐ˜์ด๊ธฐ ๋•Œ๋ฌธ์— pretraining corpus์— ํฌํ•จ๋˜์—ˆ์„ ์šฐ๋ ค ์กด์žฌ ์ธ์ •ํ•˜์ง€๋งŒ, ๋‹ค์Œ ์„ธ๊ฐ€์ง€ ์ธก๋ฉด์—์„œ ์œ ์˜์„ฑ ์ฃผ์žฅ 1) ๋ณธ์  ์žˆ๋”๋ผ๋„ Instruction์œผ๋กœ context ์ •๋ณด๋งŒ ๋”ฐ๋ฅด๋„๋ก ํ•˜๋Š” ๋ณธ ๋ฒค์น˜๋งˆํฌ์˜ ์„ค์ •์€ contamination๋˜์ง€ ์•Š์•˜์Œ: ๋ณธ ์  ์žˆ๋Š” context๋”๋ผ๋„ ์ƒˆ๋กœ์šด request๋ฅผ ํ•˜๋Š” ๊ฒฉ 2) ๋ณธ ๋ฒค์น˜๋งˆํฌ์˜ ์„ค์ •์„ ๋ชจ๋ธ์ด ํ•™์Šต๊ณผ์ •์—์„œ ์ตœ์ ํ™”ํ•œ ์  ์—†์Œ: ๋ชจ๋ธ์€ ์ปจํ…์ŠคํŠธ ๋ฌธ์„œ์™€ ์ƒ์ถฉ๋˜๋Š” ๊ฒฝ์šฐ์—๋„ ์™ธ๋ถ€ ์ง€์‹์„ ํ†ตํ•ฉํ•˜์ง€ ๋ง์•„์•ผ๋˜๊ณ , request ๋งŒ์กฑ์‹œํ‚ค๋ ค๋ฉด ์‚ฌ์ „ ํ•™์Šต๋œ ์ง€์‹์„ ํ™œ์šฉํ•˜์ง€ ์•Š์•„์•ผ ํ•จ (์ง€์‹์ถฉ๋Œ ์ฒ˜๋ฆฌ ๊ด€๋ จ) 3) ํ˜„์กด ๋ชจ๋“  LLM์€ ๋‹ค ๋น„์Šทํ•˜๊ฒŒ ์›น๊ธฐ๋ฐ˜ ์ฝ”ํผ์Šค ์‚ฌ์šฉํ•˜๊ณ  ์žˆ์œผ๋ฏ€๋กœ, ๋™๋“ฑํ•œ ์กฐ๊ฑด์œผ๋กœ ํ‰๊ฐ€ํ•˜๋Š” ๊ฒƒ

Effects:

  • Methods: 2๋‹จ๊ณ„์˜ ์ž๋™ํ™”๋œ ํ‰๊ฐ€ ์‹œ์Šคํ…œ ๋„์ž…, ๋‹ค์ค‘ ๋ชจ๋ธ ์‚ฌ์šฉ์œผ๋กœ ํŽธํ–ฅ ์™„ํ™”
    • (step1) ๋ถ€์ ๊ฒฉ ์‘๋‹ต ์ œ์™ธ
      • ๋ถ€์ ๊ฒฉ ํŒ๋ณ„๋ชจ๋ธ:ย Gemini 1.5 Pro, GPT-4o, Claude 3.5 Sonnet
      • ์‚ฌ์šฉ์ž ์š”์ฒญ ์ถฉ์กฑํ•˜๋Š” ์‘๋‹ต์ธ์ง€ ํŒ๋ณ„: ์ ๊ฒฉ/๋ถ€์ ๊ฒฉ binary label
      • ๋ถ€์ ๊ฒฉ ์‘๋‹ต์— ๋Œ€ํ•ด์„œ๋Š” step2์˜ ์‚ฌ์‹ค์„ฑ ํ‰๊ฐ€์—์„œ ์ œ์™ธ
        • 3๊ฐ€์ง€ ๋ชจ๋ธ ๋ชจ๋‘๊ฐ€ ๋ถ€์ ๊ฒฉํ•˜๋‹ค๊ณ  ํ•˜๋Š” ๊ฒฝ์šฐ๋งŒ
        • e.g. โ€œ์‹ ์žฌ์ƒ์—๋„ˆ์ง€์˜ ์žฅ๋‹จ์  ์š”์•ฝโ€ ์š”์ฒญ์— ๋Œ€ํ•ด โ€œ~๋Š” ์ข‹์ง€๋งŒ ๋ช‡๊ฐ€์ง€ ๋ฌธ์ œ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.โ€ ์ฒ˜๋Ÿผ ๋ชจํ˜ธํ•œ ๋‹ต๋ณ€์˜ ๊ฒฝ์šฐ ๋ถ€์ ๊ฒฉ์œผ๋กœ ์ฒ˜๋ฆฌ
      • ๋ชจ๋ธ๋ณ„๋กœ ๊ฒฝํ—˜์ ์œผ๋กœ ์ตœ์ ์˜ prompt template ์„ ์ •ํ•ด์„œ ์ง„ํ–‰
    • (step2) ์‚ฌ์‹ค์„ฑ ์ ์ˆ˜ ๊ณ„์‚ฐ
      • ์‚ฌ์‹ค์„ฑ ํ‰๊ฐ€ ๋ชจ๋ธ: (์ƒ๋™)
      • response์˜ ๊ฐ ๋ฌธ์žฅ๋ณ„๋กœ input ๋ฌธ์„œ์™€ ์ผ์น˜ํ•˜๋Š”์ง€ ํ‰๊ฐ€: ์ •ํ™•/๋ถ€์ •ํ™• binary label
      • 3๊ฐ€์ง€ ํŒ๋ณ„๋ชจ๋ธ์˜ ํ‰๊ฐ€ ๊ฒฐ๊ณผ ํ‰๊ท ์œผ๋กœ ์ตœ์ข… ์ ์ˆ˜ ๊ณ„์‚ฐ
  • Result: ๋ถ€์ ๊ฒฉ ์‘๋‹ต ์ œ์™ธ ์ „ย table 5, ํ›„ย table 6
    • backbone: Gemini 1.5 Pro / Flash, Gemini 2.0 Flash Experimental, GPT-4o, OpenAI o1-preview/o1-mini, Claude 3.5 Haiku/Sonnet
    • Gemini 2.0 Flash Experimental ๋ชจ๋ธ์ด ๋ถ€์ ๊ฒฉ ์‘๋‹ต ์ œ์™ธ ํ›„ ๊ฐ€์žฅ ๋†’์€ ์ตœ์ข… ์‚ฌ์‹ค์„ฑ์„ ๋ณด์ž„
      • ๋ถ€์ ๊ฒฉ ์‘๋‹ต ์ œ์™ธ๋Š” ์ตœ์ข… ์‚ฌ์‹ค์„ฑ ์ ์ˆ˜๋ฅผ 1%~5% ๊ฐ์†Œ์‹œํ‚ด, ๋ชจ๋ธ ์ˆœ์œ„๋„ ์•ฝ๊ฐ„ ๋‹ฌ๋ผ์ง
    • ํŒ๋ณ„๋ชจ๋ธ๋“ค์€ ์ผ๋ฐ˜์ ์œผ๋กœ ์ž๊ธฐ ์ƒ์„ฑ ์‘๋‹ต์„ ๋‹ค๋ฅธ ๋ชจ๋ธ๊ฒƒ๋ณด๋‹ค ๋†’๊ฒŒ ํ‰๊ฐ€(ํ‰๊ท  3.23% ์ฆ๊ฐ€)

Personal note. document grounding response fact verification์— ๋Œ€ํ•œ ํ’ˆ์งˆ ๋ณด์žฅ๋œ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค. knowledge conflict ์ดˆ๊ธฐ์— task ํ™•์žฅ ๊ณ ๋ฏผํ–ˆ์„๋•Œ, ๊ต์ˆ˜๋‹˜๊ป˜์„œ ๊ณ„์† QA๋ง๊ณ  ์—†๋ƒ๊ณ  ํ•˜์…จ๋˜ ๊ฒƒ๋„ ๊ธฐ์–ต๋‚˜๊ณ  (๋‹น์‹œ long form answer์˜ ์ •์˜คํŒ๋‹จ์ด ์–ด๋ ค์›Œ์„œ ์ œ์™ธํ–ˆ๋˜๋“ฏ), ๊ฐœ์ธ์ ์œผ๋กœ๋Š” (๋‹ค์†Œ ์–ต์ง€์ผ์ง€๋ผ๋„?) contamination ๊ด€๋ จ ์–ธ๊ธ‰๋„ ํฅ๋ฏธ๋กญ๋„ค์š”.