Question and Answer Test-Train Overlap in Open-Domain Question Answering Datasets
Meta info.
- Authors: Patrick Lewis, Pontus Stenetorp, Sebastian Riedel
- Paper: https://aclanthology.org/2021.eacl-main.86.pdf
- Conference: EACL2021, Best Short Paper
TL; DR
ODQA์์ ์์ฃผ ์ฌ์ฉํ๋ ๋ฒค์น๋งํฌ NQ์ ๋ํ ๋นํ์ ์๊ฐ์ ๋ด์ ๋
ผ๋ฌธ. ๊ธฐ์กด ๋ฒค์น๋งํฌ๋ train์์ ๋ณธ ๋ด์ฉ์ ์๊ธฐํ๋ ์ญํ ์ ํ
์คํธํ๋ ๊ฒ์ผ๋ก ๋ณด์.



Suggestions
- ODQA์์ ๊ธฐ๋ํ๋ ์ญํ ์ (1) train์์ ๋ณธ QA ์๊ธฐํ๋ ์์ค ์ด์์ผ๋ก (2) ์๋ก์ด ์ง๋ฌธ formulation์ train์์ ๋ดค๋ ๋ต๋ณ์ผ๋ก answeringํ๊ฑฐ๋ (3) ์์ ํ ์๋ก์ด QA์ generalizing ๋ฑ์ด ์์. ๊ทธ๋ฌ๋ ๋จ์ผ ๋ฐ์ดํฐ์ ์ test-set์ผ๋ก๋ ํ๊ณ.
- ๊ฐ๋ น test์ Question ์ค 30%๊ฐ ์ด๋ฏธ train์ ์ค๋ณต๋ ์์ญ์ ํฌํจํ๊ฑฐ๋ test Answer์ 60~70%๊ฐ train์ ์ด๋ฏธ ์กด์ฌํจ.
Effects
- ๊ฒฐ๋ก ์ ์ผ๋ก train์์ ์ ํ ๋ณผ์ ์์๋ Question์ ๋ํด์ ํนํ ๋ ์ฑ๋ฅ์ด ๋์ ๊ฒ์ ํ์ธ.
- simple Nearest-Neighborhood ๋ชจ๋ธ์ด BART ์ฑ๋ฅ์ ์๋ํ๊ธฐ๋.
Personal note. test set์ด ๋ชจ๋ธ์ด ๋ณด์ง ๋ชปํ ๋ฌด์ธ๊ฐ๋ผ๊ณ ๊ฐํ๊ฒ ์ ์ํ๋ค๋ฉด ํ์ฌ lm ๊ธฐ๋ฐ ๋ฐฉ์๋ค์ ๋๋ถ๋ถ pre-training์์ ์น์ ์๋ ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ์ฌ๋งํผ ๋ณด๊ธฐ ๋๋ฌธ์ ๋ง๋ค์ด์ง test set๋ํ ๊ฑฐ๊ธฐ์ ํฌํจ๋ผ ์์์ ๊ฐ๋ฅ์ฑ์ด ๋์์ ์ด๋ฌํ ๋ถ๋ถ์ ๋ํด์๋ ์ฃผ์๊ฐ ํ์ํ๊ธด ํฉ๋๋ค. ๊ทธ๋์ ์ข ๋ temporalํ ์๋๋ฉด ์๋ก์ด knowledge์ ๋ํด test๋ฅผ ํ๋๊ฒ ์ข ๋ ๋ฐ๋์งํ ๋ฐฉํฅ์ ๋ง๋ ๊ฒ ๊ฐ์์ (๋ฐ์ดํฐ๊ฐ ๋ง๋ค์ด์ง ์๊ฐ์ ๊ธฐ์ค์ผ๋ก training / test ๋ฅผ ๋๋๊ฑฐ๋ ๋ฑ๋ฑ)