Knowing When to Ask - Bridging Large Language Models and Data
Meta info.
- Authors: Prashanth Radhakrishnan, Jennifer Chen, Bo Xu, Prem Ramaswami, Hannah Pho, Adriana Olmos, James Manyika, R. V. Guha
- Paper: https://docs.datacommons.org/papers/DataGemma-FullPaper.pdf
- Affiliation: Google
- Published: September 12, 2024
- References: Google blog</li>
</ul>
</div>
## TL; DR
```
Data Commons (knowledge Graph)๋ฅผ ํ์ฉํ์ฌ LLM ์๋ต์ ์ฌ์ค์ฑ๊ณผ ์ ๋ขฐ์ฑ์ ํฅ์์์ผ LLM๊ณผ ์ค์ ๋ฐ์ดํฐ ๊ฐ์ ๊ฒฉ์ฐจ ํด์ํ๋ DataGemma ์๊ฐ
```
## Suggestion
### Data Gemma = Gemma + Data Commons
- **Data Commons**: ๊ณต๊ฐ์ ์ผ๋ก ์ด์ฉ ๊ฐ๋ฅํ ๋๊ท๋ชจ Knowledge Base. ์์ญ๋ง ๊ฐ์ ํต๊ณ ๋ณ์์ ๊ฑธ์ณ 2,400์ต ๊ฐ ์ด์์ ํ๋ถํ ๋ฐ์ดํฐ ํฌ์ธํธ ์ ๊ณต
- source: UN/WHO/CDC/์ธ๊ตฌ์กฐ์ฌ๊ตญ ๋ฑ ์ ๋ขฐํ ์ ์๋ ๊ธฐ๊ด์์ ์ถ์ฒ
- domain: ๊ฑด๊ฐ, ๊ฒฝ์ , ์ธ๊ตฌ ํต๊ณ, ํ๊ฒฝ ๋ฑ
- AI ๊ธฐ๋ฐ NL ์ธํฐํ์ด์ค ์ฌ์ฉ. multi-lingual, API ์ ๊ณต
- sample query: ์ํ๋ฆฌ์นด์์ ์ ๊ธฐ ๊ณต๊ธ์ด ๊ฐ์ฅ ๋ง์ด ์ฆ๊ฐํ ๊ตญ๊ฐ๋? ๋ฏธ๊ตญ ์นด์ดํฐ์์ ์๋๊ณผ ๋น๋จ๋ณ์ ์๊ด๊ด๊ณ๋?
- **RIG**ย (Retrieval-Interleaved Generation):
- ์ ๋ขฐํ ๋งํ source์ ์ฟผ๋ฆฌํ๊ณ data commons์ ์ ๋ณด์ ๋ํด ์ฌ์ค ํ์ธ ์ํ โ Gemma ์ฌ์ค์ฑ ํฅ์
- DataGemma์์ generationํ๋ฉด KB์ ์ธ์คํด์ค ์๋ณ ๋ฐ Data Commons์์ ๋ต์ ๊ฒ์ํ๋๋ก ํ๋ก๊ทธ๋๋ฐ (`video 1`ย ์ฐธ๊ณ )
- (Toolformer์ฒ๋ผ ์์ฑ ๊ณผ์ ์์ ํน์ ํ ํฐ ์์ฑํ๊ฒ ํ๊ณ ๊ทธ์ ๋ํด data commons์์ ๊ฒ์ ์ํ)
- **RAG**ย (Retrieval-Augmented Generation):
- Gemini 1.5 Pro์ Long-context ๊ธฐ๋ฐ
- DataGemma๋ generationํ๊ธฐ ์ ์ data commons์์ ๊ด๋ จ ์ปจํ
์คํธ ๊ฒ์ ์ํ
- (data commons์ ์ฟผ๋ฆฌํ NL ์ง๋ฌธ ์์ฑ โ ์ต์ข
ํ๋กฌํํธ ๊ตฌ์ฑ)
## Effects
- Results: ์์น ์ ๋ณด ์ฒ๋ฆฌ์ ํนํ ํ์ํ ์ฑ๋ฅ
- RIG: LLM์ด Data Commons์ ๋ชจ๋ ๋ณ์ ID์ ๋ํ ์ง์์ ๋ฐฐ์ฐ๋๋ก ํ๋ํ๋ ๊ฒ๋ณด๋ค NL ์ฟผ๋ฆฌ ์์ฑํ๋ ๊ฒ์ด ๋ ์ข๋ค.
- ์ ๋ฐ์ ์ผ๋ก RIG ์ ๊ทผ ๋ฐฉ์์ ์ฌ์ค์ฑ์ 5-17%์์ ์ฝ 58%๋ก ํฅ์
- RAG: retrieved table์์ ๊ด๋ จ ๋ฐ์ดํฐ๋ฅผ ์ ํํ๊ฒ ๊ฐ์ ธ์ด
- LLM์ ์ซ์๋ฅผ ๊ฐ์ ธ์ค๊ธฐ๋ ์ ํํ๊ฒ ๊ฐ์ ธ์ค๋๋ฐ(99%), ์ถ๋ก ์ ํ๋ ๋จ์ด์ง. ์ถ๋ก ์ค๋ฅ 6-20%
> **Personal note.**
> ์๋์ ์ผ๋ก ๋ค๋ฅธ ๋ฒ ์ด์ค๋ผ์ธ ๋ชจ๋ธ์ด ์๋ ๊ฑด ์๋๋ผ, ๊ฒฐ๊ณผ์ ๋ํด์๋ ์ค๋ช
์ ๋ง์ด ์๋ตํ๋๋ฐ RIG/RAG๊ฐ ์๋ก์ด ํ๋ ์์ํฌ๋ ์๋๊ธฐ๋ ํ๊ณ , Data commons๊ฐ ์๋ฌด๋ฆฌ ํฌ๋ค๊ณ ํด๋ ๋ฒ์๊ฐ ํ์ ๋ ๊ฒ์ด ํ๊ณ๊ธฐ๋ ํฉ๋๋ค๋ง, ์คํ๋ ค ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ Closed domain์์ ํ์ฉ๋๊ฐ ์ปค์ง ๊ฒ ๊ฐ์ต๋๋ค. ~~์ ์ ๋ ๋ฌผ๋ก ์ ๊ตฌ์ถ๋ kb๊ฐ ์์ด์ผ ๋๋ค๋ ๊ฒ์ด๊ธด ํ์ง๋ง..~~ ์ฐ๋ฆฌ ์ฐ๊ตฌ์ค์์๋ table QA๋ KB ์ฌ์ฉํด๋ณด๋ ค๋ ์ฐ๊ตฌ ๋
ผ์๋๋ ๊ฒ ๊ฐ์์ ๊ณต์ ๋๋ฆฝ๋๋ค.