Detecting Training Data of Large Language Models via Expectation Maximization
Meta info.
- Authors: Gyuwan Kim, Yang Li, Evangelia Spiliopoulou, Jie Ma, Miguel Ballesteros, William Yang Wang
- Paper: https://arxiv.org/pdf/2410.07582
- Affiliation: AWS AI Lab, UCSB
- Published: October 10, 2024
TL; DR
Expectation-Maximization ์๊ณ ๋ฆฌ์ฆ์ ํตํด ๋ฉค๋ฒ์ญ ์ ์์ prefix ์ ์๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ์
๋ฐ์ดํธํ์ฌ ๋ ๋์ ๋ฉค๋ฒ์ญ ์ถ๋ก ์ ์ํํ๋ ์๋ก์ด LLM์ฉ MIA ๋ฐฉ์ EM-MIA ์ ์





Background
์ด๋ค ๋ฐ์ดํฐ๊ฐ ๋ชจ๋ธ ํ์ต์ ์ฌ์ฉ๋์๋์ง ์ ์ ์๋ค.
- Membership Inference Attack (MIA): ํน์ ๋ฐ์ดํฐ๊ฐ ๋ชจ๋ธ ํ์ต์ ์ฌ์ฉ๋์๋์ง ํ์ง
- ๋ชจ๋ธ M์ ๊ทธ์ ํ์ต๋ฐ์ดํฐ D_train์ ๋ํด, ํ ์คํธ ๋ฐ์ดํฐ D_test์ ๊ฐ ์ธ์คํด์ค x๊ฐ D_train์ ์ํ๋๊ฐ? (= ๋ฉค๋ฒ์ธ๊ฐ?)
- ๊ฐ์ : M์ D_train์ ๊ณผ์ ํฉ/๊ธฐ์ตํ๋ค.
- ์ผ๋ฐ์ ์ผ๋ก ๋ฉค๋ฒ๋ ๋น ๋ฉค๋ฒ์ ๋นํด LLM์ ํ๊ฒ text์ average log likelihood (PPL)๊ฐ ๋ฎ๋ค.
- ReCaLL: WikiMIA์์ 90% ์ด์์ AUC-ROC๋ฅผ ๋ฌ์ฑํ SOTA
- ์ฌ์ฉ๋ membership score: (context๋ก์) ๋น๋ฉค๋ฒ prefix p๊ฐ ์ฃผ์ด์ก์ ๋, ํ๊ฒ ๋ฐ์ดํฐ ํฌ์ธํธ x๊ฐ ๋ฉค๋ฒ์ผ ํ๋ฅ
- prefix: : ๋จ์ด, ๊ตฌ, ๋ฌธ์ฅ, ์ฌ๋ฌ ๋ฌธ์ฅ, โฆ
- x์ ์กฐ๊ฑด๋ถ ๋ก๊ทธ ์ฐ๋์ LLM M์ ์ํ x์ ๋ฌด์กฐ๊ฑด๋ถ ๋ก๊ทธ(prefix ์์ด) ์ฐ๋์ ๋น์จ
- ์ฆ, prefix ์์กด๋ ๋์ (๊ฐํ ๊ฐ์ ํ์์ ์ ๊ฐ)
- ์ฌ์ฉ๋ membership score: (context๋ก์) ๋น๋ฉค๋ฒ prefix p๊ฐ ์ฃผ์ด์ก์ ๋, ํ๊ฒ ๋ฐ์ดํฐ ํฌ์ธํธ x๊ฐ ๋ฉค๋ฒ์ผ ํ๋ฅ
Problem States
ํ์ต ๋ฐ์ดํฐ ๊ท๋ชจ๊ฐ ๋๋ฌด ํฐ ํ ์์ ์์, ์ธ์ด์ ํน์ฑ์์ ๋น๋กฏ๋ ๋ฉค๋ฒ์ญ์ ๋ชจํธ์ฑ์ผ๋ก LLM์ ๋ํด MIA๊ฐ ์ด๋ ค์์ง
- ReCaLL์ ํ๊ณ
- prefix๋ก ๋ญ ๊ณ ๋ฅด๋๋์ ๋ํ ์์กด๋๊ฐ ํฌ๊ณ
- test set์์ label์ด ์ง์ ๋ ๋ฐ์ดํฐ๋ฅผ ์ฐ๋ฏ๋ก ๋ค๋ฅธ MIA์ ๊ณต์ ๋น๊ต ๋ถ๊ฐ
- ๋น๋ฉค๋ฒ ๋ฐ์ดํฐ๊ฐ ์์ ๋ ๊ฐ๊ฑด์ฑ ๋จ์ด์ง
Suggestions
EM ์๊ณ ๋ฆฌ์ฆ์ ํ์ฉํ์ฌ membership score์ prefix score๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ๊ฐ์ โ ํ ์คํธ ๋ฐ์ดํฐ์ ์ ๋ํ ์ต์ํ์ ์ ๋ณด๋ง์ผ๋ก๋ LLM์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ํ์งํ ์ ์๋ค.
- output logit ์ ๊ทผ ๊ฐ๋ฅํ grey-box LLM ๊ธฐ๋ฐ
- prefix score๊ฐ ๋์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ membership score๋ฅผ ๋์ฑ ์ ํํ๊ฒ ๊ณ์ฐ
- membership score: ๊ฐ ๋ฐ์ดํฐ๊ฐ ๋ฉค๋ฒ์ผ ํ๋ฅ
- prefix score: prefix๋ก ์ฌ์ฉ๋ ๋ ๊ฐ ๋ฐ์ดํฐ ํฌ์ธํธ๊ฐ ๋ฉค๋ฒ์ ๋น๋ฉค๋ฒ ๊ตฌ๋ณ์ ์ผ๋ง๋ ํจ๊ณผ์ ์ธ๊ฐ
- process
- ์ด๊ธฐ ๋ฉค๋ฒ์ญ ์ ์ ํ ๋น(Loss, Min-K%++, โฆ)
- ํด๋น ์ ์ ๊ธฐ๋ฐ์ผ๋ก prefix score ๊ณ์ฐ โ ๋ฉค๋ฒ์ญ ์ ์ update, โฆ. (EM)
- prefix score๊ฐ ๋์ ๋ฐ์ดํฐ ์ฌ์ฉ์ ๋ ๋์ MIA ์ฑ๋ฅ ๋ฌ์ฑ
Effects
๋ฉค๋ฒ์ ๋น๋ฉค๋ฒ๊ฐ ๋ช ํํ ๊ตฌ๋ถ๋๋ ๋ถํฌ๋ฅผ ๋๋ค๋ฉด ์ฑ๋ฅ ๋์ฑ ์ข์. (๊ทธ๋ ์ง ์์ ๊ฒฝ์ฐ ๋ค๋ฅธ MIA ๋ฐฉ์๋ค ๋ชจ๋ challenge)
- WikiMIA์์ SOTA
- baseline: Mamba-1.4B, Pythia-6.9B, LLaMA-13B, NeoX-20B, LLaMA-30B, OPT-66B
- ๊ฐ์ฅ ํฐ ๋ชจ๋ธ๋ก ์ฌ์ฉํ๋ OPT-66B์์ ๊ธธ์ด 32์ 64์ ๋ํด 99% AUC-ROC = ์ ์ํ EM-MIA๊ฐ ์ฃผ์ด์ง ๋น๋ฉค๋ฒ ํ ์คํธ ๋ฐ์ดํฐ ์์ด๋ ๋งค์ฐ ์ ํํ๊ฒ ๋ฉค๋ฒ์ญ์ ์ถ๋ก ํ๋ค
- OLMoMIA์์๋ ์ข์ ์ฑ๋ฅ
- Easy์ Medium ๋์ด๋์์ WikiMIA์ ์ ์ฌํ๊ฒ ๊ฑฐ์ ์ ํ
- Hard ๋ฐ Random ๋์ด๋ ์ค์ ์์๋ MIMIR ๋ฒค์น๋งํฌ์ ์ ์ฌํ๊ฒ ๋๋ค ์ถ์ธก ์์ค (๋ฉค๋ฒ์ ๋น๋ฉค๋ฒ์ ๋ถํฌ๊ฐ ํฌ๊ฒ ๊ฒน์น๋ ์ค์ ์ด๊ธฐ ๋๋ฌธ์ผ๋ก ๋ถ์)
Personal note. ๋ณธ ๋ ผ๋ฌธ์์๋ ์ด๊ธฐ ๋ฉค๋ฒ์ญ ์ค์ฝ์ด ์ค์ ํ ๋ ๋๋ค ์ค์ ์ ๋๋ก ์ ๋ชป์ก์ผ๋ฉด, ์ ์ํ๋ EM-MIA์ ์๊ณ ๋ฆฌ์ฆ์ด ํจ๊ณผ์ ์ผ๋ก ์๋ํ๊ธฐ ์ด๋ ต๋ค๋ฅผ ํ๊ณ๋ก ์ง๊ณ ๋์ด๊ฐ๋๋ฐ,(๊ทธ๋์ ์ง์ง ์ด๋ ต๋ค๋ MIMIR ๋ฐ์ดํฐ์ ์ ์ ์ฉ ์ํด๋ดค๋ค๊ณ ) ์ ๊ทผํ๊ณ ์๋ ์ด task ์์ฒด๊ฐ (๋ฒค์น๋งํฌ ์์ฒด์ ๋์ด๋๊ฐ ์๋๋ผ ํ๋ ค๊ณ ํ๋ ๋ฐ๊ฐ) ๋ฌด์ฒ ์ด๋ ค์๋ณด์ ๋๋ค๐ค๐ค๐ค๐ค