2 minute read

Meta info.
  • Authors: Gyuwan Kim, Yang Li, Evangelia Spiliopoulou, Jie Ma, Miguel Ballesteros, William Yang Wang
  • Paper: https://arxiv.org/pdf/2410.07582
  • Affiliation: AWS AI Lab, UCSB
  • Published: October 10, 2024

TL; DR

Expectation-Maximization ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ํ†ตํ•ด ๋ฉค๋ฒ„์‹ญ ์ ์ˆ˜์™€ prefix ์ ์ˆ˜๋ฅผ ๋ฐ˜๋ณต์ ์œผ๋กœ ์—…๋ฐ์ดํŠธํ•˜์—ฌ ๋” ๋‚˜์€ ๋ฉค๋ฒ„์‹ญ ์ถ”๋ก ์„ ์ˆ˜ํ–‰ํ•˜๋Š” ์ƒˆ๋กœ์šด LLM์šฉ MIA ๋ฐฉ์‹ EM-MIA ์ œ์•ˆ

image.png

image.png

image.png

image.png

image.png

Background

์–ด๋–ค ๋ฐ์ดํ„ฐ๊ฐ€ ๋ชจ๋ธ ํ•™์Šต์— ์‚ฌ์šฉ๋˜์—ˆ๋Š”์ง€ ์•Œ ์ˆ˜ ์—†๋‹ค.

  • Membership Inference Attack (MIA): ํŠน์ • ๋ฐ์ดํ„ฐ๊ฐ€ ๋ชจ๋ธ ํ•™์Šต์— ์‚ฌ์šฉ๋˜์—ˆ๋Š”์ง€ ํƒ์ง€
    • ๋ชจ๋ธ M์™€ ๊ทธ์˜ ํ•™์Šต๋ฐ์ดํ„ฐ D_train์— ๋Œ€ํ•ด, ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ D_test์˜ ๊ฐ ์ธ์Šคํ„ด์Šค x๊ฐ€ D_train์— ์†ํ•˜๋Š”๊ฐ€? (= ๋ฉค๋ฒ„์ธ๊ฐ€?)
    • ๊ฐ€์ •: M์€ D_train์— ๊ณผ์ ํ•ฉ/๊ธฐ์–ตํ•œ๋‹ค.
      • ์ผ๋ฐ˜์ ์œผ๋กœ ๋ฉค๋ฒ„๋Š” ๋น„ ๋ฉค๋ฒ„์— ๋น„ํ•ด LLM์˜ ํƒ€๊ฒŸ text์˜ average log likelihood (PPL)๊ฐ€ ๋‚ฎ๋‹ค.
  • ReCaLL: WikiMIA์—์„œ 90% ์ด์ƒ์˜ AUC-ROC๋ฅผ ๋‹ฌ์„ฑํ•œ SOTA
    • ์‚ฌ์šฉ๋œ membership score: (context๋กœ์„œ) ๋น„๋ฉค๋ฒ„ prefix p๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ, ํƒ€๊ฒŸ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ x๊ฐ€ ๋ฉค๋ฒ„์ผ ํ™•๋ฅ 
      • prefix: : ๋‹จ์–ด, ๊ตฌ, ๋ฌธ์žฅ, ์—ฌ๋Ÿฌ ๋ฌธ์žฅ, โ€ฆ
      • x์˜ ์กฐ๊ฑด๋ถ€ ๋กœ๊ทธ ์šฐ๋„์™€ LLM M์— ์˜ํ•œ x์˜ ๋ฌด์กฐ๊ฑด๋ถ€ ๋กœ๊ทธ(prefix ์—†์ด) ์šฐ๋„์˜ ๋น„์œจ
    • ์ฆ‰, prefix ์˜์กด๋„ ๋†’์Œ (๊ฐ•ํ•œ ๊ฐ€์ • ํ•˜์—์„œ ์ „๊ฐœ)

Problem States

ํ•™์Šต ๋ฐ์ดํ„ฐ ๊ทœ๋ชจ๊ฐ€ ๋„ˆ๋ฌด ํฐ ํ˜„ ์‹œ์ ์—์„œ, ์–ธ์–ด์˜ ํŠน์„ฑ์—์„œ ๋น„๋กฏ๋œ ๋ฉค๋ฒ„์‹ญ์˜ ๋ชจํ˜ธ์„ฑ์œผ๋กœ LLM์— ๋Œ€ํ•ด MIA๊ฐ€ ์–ด๋ ค์›Œ์ง

  • ReCaLL์˜ ํ•œ๊ณ„
    • prefix๋กœ ๋ญ˜ ๊ณ ๋ฅด๋А๋ƒ์— ๋Œ€ํ•œ ์˜์กด๋„๊ฐ€ ํฌ๊ณ 
    • test set์—์„œ label์ด ์ง€์ •๋œ ๋ฐ์ดํ„ฐ๋ฅผ ์“ฐ๋ฏ€๋กœ ๋‹ค๋ฅธ MIA์™€ ๊ณต์ • ๋น„๊ต ๋ถˆ๊ฐ€
    • ๋น„๋ฉค๋ฒ„ ๋ฐ์ดํ„ฐ๊ฐ€ ์—†์„ ๋•Œ ๊ฐ•๊ฑด์„ฑ ๋–จ์–ด์ง

Suggestions

EM ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ํ™œ์šฉํ•˜์—ฌ membership score์™€ prefix score๋ฅผ ๋ฐ˜๋ณต์ ์œผ๋กœ ๊ฐœ์„  โ†’ ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•œ ์ตœ์†Œํ•œ์˜ ์ •๋ณด๋งŒ์œผ๋กœ๋„ LLM์˜ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ํƒ์ง€ํ•  ์ˆ˜ ์žˆ๋‹ค.

  • output logit ์ ‘๊ทผ ๊ฐ€๋Šฅํ•œ grey-box LLM ๊ธฐ๋ฐ˜
  • prefix score๊ฐ€ ๋†’์€ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ membership score๋ฅผ ๋”์šฑ ์ •ํ™•ํ•˜๊ฒŒ ๊ณ„์‚ฐ
    • membership score: ๊ฐ ๋ฐ์ดํ„ฐ๊ฐ€ ๋ฉค๋ฒ„์ผ ํ™•๋ฅ 
    • prefix score: prefix๋กœ ์‚ฌ์šฉ๋  ๋•Œ ๊ฐ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๊ฐ€ ๋ฉค๋ฒ„์™€ ๋น„๋ฉค๋ฒ„ ๊ตฌ๋ณ„์— ์–ผ๋งˆ๋‚˜ ํšจ๊ณผ์ ์ธ๊ฐ€
  • process
    1. ์ดˆ๊ธฐ ๋ฉค๋ฒ„์‹ญ ์ ์ˆ˜ ํ• ๋‹น(Loss, Min-K%++, โ€ฆ)
    2. ํ•ด๋‹น ์ ์ˆ˜ ๊ธฐ๋ฐ˜์œผ๋กœ prefix score ๊ณ„์‚ฐ โ†’ ๋ฉค๋ฒ„์‹ญ ์ ์ˆ˜ update, โ€ฆ. (EM)
    3. prefix score๊ฐ€ ๋†’์€ ๋ฐ์ดํ„ฐ ์‚ฌ์šฉ์‹œ ๋” ๋†’์€ MIA ์„ฑ๋Šฅ ๋‹ฌ์„ฑ

Effects

๋ฉค๋ฒ„์™€ ๋น„๋ฉค๋ฒ„๊ฐ€ ๋ช…ํ™•ํžˆ ๊ตฌ๋ถ„๋˜๋Š” ๋ถ„ํฌ๋ฅผ ๋ˆ๋‹ค๋ฉด ์„ฑ๋Šฅ ๋”์šฑ ์ข‹์Œ. (๊ทธ๋ ‡์ง€ ์•Š์€ ๊ฒฝ์šฐ ๋‹ค๋ฅธ MIA ๋ฐฉ์‹๋“ค ๋ชจ๋‘ challenge)

  • WikiMIA์—์„œ SOTA
    • baseline: Mamba-1.4B, Pythia-6.9B, LLaMA-13B, NeoX-20B, LLaMA-30B, OPT-66B
    • ๊ฐ€์žฅ ํฐ ๋ชจ๋ธ๋กœ ์‚ฌ์šฉํ–ˆ๋˜ OPT-66B์—์„œ ๊ธธ์ด 32์™€ 64์— ๋Œ€ํ•ด 99% AUC-ROC = ์ œ์•ˆํ•œ EM-MIA๊ฐ€ ์ฃผ์–ด์ง„ ๋น„๋ฉค๋ฒ„ ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ ์—†์ด๋„ ๋งค์šฐ ์ •ํ™•ํ•˜๊ฒŒ ๋ฉค๋ฒ„์‹ญ์„ ์ถ”๋ก ํ•œ๋‹ค
  • OLMoMIA์—์„œ๋„ ์ข‹์€ ์„ฑ๋Šฅ
    • Easy์™€ Medium ๋‚œ์ด๋„์—์„œ WikiMIA์™€ ์œ ์‚ฌํ•˜๊ฒŒ ๊ฑฐ์˜ ์ •ํ™•
    • Hard ๋ฐ Random ๋‚œ์ด๋„ ์„ค์ •์—์„œ๋Š” MIMIR ๋ฒค์น˜๋งˆํฌ์™€ ์œ ์‚ฌํ•˜๊ฒŒ ๋žœ๋ค ์ถ”์ธก ์ˆ˜์ค€ (๋ฉค๋ฒ„์™€ ๋น„๋ฉค๋ฒ„์˜ ๋ถ„ํฌ๊ฐ€ ํฌ๊ฒŒ ๊ฒน์น˜๋Š” ์„ค์ •์ด๊ธฐ ๋•Œ๋ฌธ์œผ๋กœ ๋ถ„์„)

Personal note. ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ์ดˆ๊ธฐ ๋ฉค๋ฒ„์‹ญ ์Šค์ฝ”์–ด ์„ค์ •ํ•  ๋•Œ ๋žœ๋ค ์„ค์ • ์ •๋„๋กœ ์ž˜ ๋ชป์žก์œผ๋ฉด, ์ œ์•ˆํ•˜๋Š” EM-MIA์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ํšจ๊ณผ์ ์œผ๋กœ ์ž‘๋™ํ•˜๊ธฐ ์–ด๋ ต๋‹ค๋ฅผ ํ•œ๊ณ„๋กœ ์ง‘๊ณ  ๋„˜์–ด๊ฐ€๋Š”๋ฐ,(๊ทธ๋ž˜์„œ ์ง„์งœ ์–ด๋ ต๋‹ค๋Š” MIMIR ๋ฐ์ดํ„ฐ์…‹์— ์ ์šฉ ์•ˆํ•ด๋ดค๋‹ค๊ณ ) ์ ‘๊ทผํ•˜๊ณ  ์žˆ๋Š” ์ด task ์ž์ฒด๊ฐ€ (๋ฒค์น˜๋งˆํฌ ์ž์ฒด์˜ ๋‚œ์ด๋„๊ฐ€ ์•„๋‹ˆ๋ผ ํ•˜๋ ค๊ณ  ํ•˜๋Š” ๋ฐ”๊ฐ€) ๋ฌด์ฒ™ ์–ด๋ ค์›Œ๋ณด์ž…๋‹ˆ๋‹ค๐Ÿค”๐Ÿค”๐Ÿค”๐Ÿค”