The FACTS Grounding Leaderboard: Benchmarking LLMsโ Ability to Ground Responses to Long-Form Input
Meta info.
- Authors: Alon Jacovi, Andrew Wang, Chris Alberti, Connie Tao, Jon Lipovetz, Kate Olszewska, Lukas Haas, Michelle Liu, Nate Keating et al.
- Paper: https://storage.googleapis.com/deepmind-media/FACTS/FACTS_grounding_paper.pdf
- Affiliation: Google Cloud, Google DeepMind, Google Research, Kaggle
- Published: December 17, 2024
- References: DeepMind Blog, Leaderboard
TL; DR
long input์ ๋ํ response์ ์ฌ์ค์ฑ ํ๊ฐ ๋ฒค์น๋งํฌ ์ ์. ์ต๋ 32K token์ ์
๋ ฅ ์ฒ๋ฆฌ, ์๋ ํ๊ฐ ํ๋ ์์ํฌ ๊ณต๊ฐ




Task Goal
๊ธด ์ ๋ ฅ์ ๋ํด ์ฌ์ค์ ์ผ๋ก ์ ํํ ํ ์คํธ๋ฅผ ์์ฑํ๋ LLM ๋ฅ๋ ฅ ํ๊ฐ
Dataset construction
ํ๊ท 2.5K, ์ต๋ 32K token์ ๊ธ์ต, ๊ธฐ์ ๋ฑ ๋ค์ํ ๋๋ฉ์ธ์ context ์ ๋ ฅ โ response ์ถ๋ ฅํ๋๋ก
- task: QA, ๋ฌธ์ ์ฌ์์ฑ, ์์ฝ ๋ฑ ๊ธฐ์กด QA ์คํ์ผ์ ๊ตญํ๋ task๋ฅผ ๋ถ์, ๋น๊ต ๋ฑ ๋ค์ํ๊ฒ ํ๋ย
Figure 1 - prompt: context + request + few-shot + instruction
- instruction: ๋ชจ๋ธ์ด โ์ธ๋ถ ์ง์์ ํฌํจํ์ง ์๊ณ โ ์ฃผ์ด์ง ์ปจํ
์คํธ์์๋ง ์๋ต์ ์์ฑํ๋๋ก ์ง์
- ๋ ผ๋ฌธ์์๋ ์ธ๋ถ์ง์์ด๋ผ๊ณ ํ๋๋ฐ, ๋งฅ๋ฝ์ โ์ค context ์ธ์ ๋ชจ๋ ์ง์โ์ ๋งํ๋๊ฒ์ผ๋ก ๋ณด์ด๊ณ
- ์ฆ black box ์ํฉ์์ ์ธ๋ถ ์ง์์ ๊ฒ์ํด์ค๋ ๊ฒฝ์ฐ๋ ๋ชจ๋ธ ๋ด๋ถ ์ฌ์ ํ์ต ์ง์๋ ์ฐ์ง ๋ง๋ผ๊ณ ํ๊ณ ์ถ์๋ ๋ฏ.
- instruction: ๋ชจ๋ธ์ด โ์ธ๋ถ ์ง์์ ํฌํจํ์ง ์๊ณ โ ์ฃผ์ด์ง ์ปจํ
์คํธ์์๋ง ์๋ต์ ์์ฑํ๋๋ก ์ง์
- validation: ๊ตฌ์ถํ ๋ชจ๋ ๋ฐ์ดํฐ์
์ ๋ํด ์ง์ ์ธ๊ฐ์ด ํ์ธ โ ์๋์ ๋ง์ง ์๋ ๋ชจ๋ few-shot ์์ ์ญ์
- request๊ฐ ์ ๋นํ ์ด๋ ต๊ณ instruction์ด ์ ๋๋ก ๋ฐ์๋๋ฉด์ ๋๋ฌด ๋ณต์กํ ์ถ๋ก ์ ์๊ตฌํ์ง๋ ์๋๋ก + OCR๊น์ง ํ์ํ PDF ๋ฌธ์ ์ ์ธ ๋ฑ
- contamination ๊ณ ๋ ค: ๋น์ฐํ ์น์์ง ๊ธฐ๋ฐ์ด๊ธฐ ๋๋ฌธ์ pretraining corpus์ ํฌํจ๋์์ ์ฐ๋ ค ์กด์ฌ ์ธ์ ํ์ง๋ง, ๋ค์ ์ธ๊ฐ์ง ์ธก๋ฉด์์ ์ ์์ฑ ์ฃผ์ฅ 1) ๋ณธ์ ์๋๋ผ๋ Instruction์ผ๋ก context ์ ๋ณด๋ง ๋ฐ๋ฅด๋๋ก ํ๋ ๋ณธ ๋ฒค์น๋งํฌ์ ์ค์ ์ contamination๋์ง ์์์: ๋ณธ ์ ์๋ context๋๋ผ๋ ์๋ก์ด request๋ฅผ ํ๋ ๊ฒฉ 2) ๋ณธ ๋ฒค์น๋งํฌ์ ์ค์ ์ ๋ชจ๋ธ์ด ํ์ต๊ณผ์ ์์ ์ต์ ํํ ์ ์์: ๋ชจ๋ธ์ ์ปจํ ์คํธ ๋ฌธ์์ ์์ถฉ๋๋ ๊ฒฝ์ฐ์๋ ์ธ๋ถ ์ง์์ ํตํฉํ์ง ๋ง์์ผ๋๊ณ , request ๋ง์กฑ์ํค๋ ค๋ฉด ์ฌ์ ํ์ต๋ ์ง์์ ํ์ฉํ์ง ์์์ผ ํจ (์ง์์ถฉ๋ ์ฒ๋ฆฌ ๊ด๋ จ) 3) ํ์กด ๋ชจ๋ LLM์ ๋ค ๋น์ทํ๊ฒ ์น๊ธฐ๋ฐ ์ฝํผ์ค ์ฌ์ฉํ๊ณ ์์ผ๋ฏ๋ก, ๋๋ฑํ ์กฐ๊ฑด์ผ๋ก ํ๊ฐํ๋ ๊ฒ
Effects:
- Methods: 2๋จ๊ณ์ ์๋ํ๋ ํ๊ฐ ์์คํ
๋์
, ๋ค์ค ๋ชจ๋ธ ์ฌ์ฉ์ผ๋ก ํธํฅ ์ํ
- (step1) ๋ถ์ ๊ฒฉ ์๋ต ์ ์ธ
- ๋ถ์ ๊ฒฉ ํ๋ณ๋ชจ๋ธ:ย Gemini 1.5 Pro, GPT-4o, Claude 3.5 Sonnet
- ์ฌ์ฉ์ ์์ฒญ ์ถฉ์กฑํ๋ ์๋ต์ธ์ง ํ๋ณ: ์ ๊ฒฉ/๋ถ์ ๊ฒฉ binary label
- ๋ถ์ ๊ฒฉ ์๋ต์ ๋ํด์๋ step2์ ์ฌ์ค์ฑ ํ๊ฐ์์ ์ ์ธ
- 3๊ฐ์ง ๋ชจ๋ธ ๋ชจ๋๊ฐ ๋ถ์ ๊ฒฉํ๋ค๊ณ ํ๋ ๊ฒฝ์ฐ๋ง
- e.g. โ์ ์ฌ์์๋์ง์ ์ฅ๋จ์ ์์ฝโ ์์ฒญ์ ๋ํด โ~๋ ์ข์ง๋ง ๋ช๊ฐ์ง ๋ฌธ์ ๊ฐ ์์ต๋๋ค.โ ์ฒ๋ผ ๋ชจํธํ ๋ต๋ณ์ ๊ฒฝ์ฐ ๋ถ์ ๊ฒฉ์ผ๋ก ์ฒ๋ฆฌ
- ๋ชจ๋ธ๋ณ๋ก ๊ฒฝํ์ ์ผ๋ก ์ต์ ์ prompt template ์ ์ ํด์ ์งํ
- (step2) ์ฌ์ค์ฑ ์ ์ ๊ณ์ฐ
- ์ฌ์ค์ฑ ํ๊ฐ ๋ชจ๋ธ: (์๋)
- response์ ๊ฐ ๋ฌธ์ฅ๋ณ๋ก input ๋ฌธ์์ ์ผ์นํ๋์ง ํ๊ฐ: ์ ํ/๋ถ์ ํ binary label
- 3๊ฐ์ง ํ๋ณ๋ชจ๋ธ์ ํ๊ฐ ๊ฒฐ๊ณผ ํ๊ท ์ผ๋ก ์ต์ข ์ ์ ๊ณ์ฐ
- (step1) ๋ถ์ ๊ฒฉ ์๋ต ์ ์ธ
- Result: ๋ถ์ ๊ฒฉ ์๋ต ์ ์ธ ์ ย
table 5, ํยtable 6- backbone: Gemini 1.5 Pro / Flash, Gemini 2.0 Flash Experimental, GPT-4o, OpenAI o1-preview/o1-mini, Claude 3.5 Haiku/Sonnet
- Gemini 2.0 Flash Experimental ๋ชจ๋ธ์ด ๋ถ์ ๊ฒฉ ์๋ต ์ ์ธ ํ ๊ฐ์ฅ ๋์ ์ต์ข
์ฌ์ค์ฑ์ ๋ณด์
- ๋ถ์ ๊ฒฉ ์๋ต ์ ์ธ๋ ์ต์ข ์ฌ์ค์ฑ ์ ์๋ฅผ 1%~5% ๊ฐ์์ํด, ๋ชจ๋ธ ์์๋ ์ฝ๊ฐ ๋ฌ๋ผ์ง
- ํ๋ณ๋ชจ๋ธ๋ค์ ์ผ๋ฐ์ ์ผ๋ก ์๊ธฐ ์์ฑ ์๋ต์ ๋ค๋ฅธ ๋ชจ๋ธ๊ฒ๋ณด๋ค ๋๊ฒ ํ๊ฐ(ํ๊ท 3.23% ์ฆ๊ฐ)
Personal note. document grounding response fact verification์ ๋ํ ํ์ง ๋ณด์ฅ๋ ๋ฐ์ดํฐ์ ์ผ๋ก ๋ณด์ ๋๋ค. knowledge conflict ์ด๊ธฐ์ task ํ์ฅ ๊ณ ๋ฏผํ์๋, ๊ต์๋๊ป์ ๊ณ์ QA๋ง๊ณ ์๋๊ณ ํ์ จ๋ ๊ฒ๋ ๊ธฐ์ต๋๊ณ (๋น์ long form answer์ ์ ์คํ๋จ์ด ์ด๋ ค์์ ์ ์ธํ๋๋ฏ), ๊ฐ์ธ์ ์ผ๋ก๋ (๋ค์ ์ต์ง์ผ์ง๋ผ๋?) contamination ๊ด๋ จ ์ธ๊ธ๋ ํฅ๋ฏธ๋กญ๋ค์.