Real-time Fake News from Adversarial Feedback
Meta info.
- Authors: Sanxing Chen, Yukun Huang, Bhuwan Dhingra
- Paper: https://arxiv.org/pdf/2410.14651
- Affiliation: Duke Univ.
- Published: October 18, 2024
TL; DR
LLM์ fake news๋ฅผ ๋ ์ ์์ฑํ๊ฒ ํ๋ ๋ฐฉ๋ฒ. ํ์ต ์ดํ ๋ฐ์๋๋ ์ฌ๊ฑด์ fake news ํ์ง๋ฅผ ์ํด, adversarial iterative fake news ์์ฑ ํ์ดํ๋ผ์ธ ์ ์






Problem States
- ๊ธฐ์กด fake news ๋ฐ์ดํฐ๋ PolitiFact๋ Snopes ๋ฑ fact check web site์ ๊ณผ๊ฑฐ ๋ฐ์ดํฐ ํ์ฉ โ ๋ชจ๋ธ์ด ํ์ตํ์ ๊ฐ๋ฅ์ฑ
- ์ต์ LLM๋ค์ด ์๊ฐ๋ณด๋ค fake news ํ์ง ์ ํ๋๋ฐ, ์คํ ๊ฒฐ๊ณผ ํ์ง ์ฑ๋ฅ์ด (LLM ํ์ต ์ดํ ๋ฐ์๋๋ ์ฌ๊ฑด์ ๋ํด์๋ ๊ณ์ํด์) ํฅ์๋จ == ์ฌ์ค ์ถ๋ก ๋ฅ๋ ฅ์ด ํฅ์๋์๊ธฐ ๋ณด๋ค๋ fake news์ ์ด๋ค pattern์ ํ์ตํ์ ๊ฐ๋ฅ์ฑ
- (๋ค์ํ pattern์ fake news์ ๋ํ ์ฐ๊ตฌ๊ฐ ํ์ํ๋ค๋ ๊ฒฐ๋ก )
Suggestions
RAG๊ธฐ๋ฐ detector๋ฅผ ์ ์ง์ ์ผ๋ก ํํผ(?)ํ ์ ์๋ fake news๋ฅผ adversarial iterativeํ๊ฒ ์์ฑํ๋ ๋ฐฉ๋ฒ ์ ์
- ๋ค์ํ ๋๋ฉ์ธ์ ์ค์ ๋ด์ค๊ธฐ์ฌ ๊ธฐ๋ฐ LLM ์์ ์ด์์ real news corpus ๊ตฌ์ถ
- LLM (generator)๊ธฐ๋ฐ fake news ํ๋ณด ์์ฑ
- real news๋ contradict ๋์ง ์๋ ํ๋ณด ์ ์ธ
- RAG๊ธฐ๋ฐ detector๋ก filter๋ ํ๋ณด ranking โ top1 ์ ํ (โ generator input)
- detector๋ฅผ ์ ์ง์ ์ผ๋ก ์์ด๋ Iterative loop ์์ฑ
Effects:
- Experimental setup: NBC News ํ์ฉ, GPT-4o๋ฅผ main generator๋ก ํ์ฌ 6ํ loop ์ํ
- backbone: GPT-4, GPT-3.5, Gemini Pro/Flash, Llama 3.1, โฆ
- Results: loop๋ฅผ ๊ฑฐ์น ์๋ก ๋ ํฅ์๋ (์ด๋ ค์ด) fake news ์์ฑํด๋
- ํนํ RAG๊ธฐ๋ฐ GPT-4o ๋ชจ๋ธ์ด ๊ฐ์ฅ ์ฑ๋ฅ ํ๋ฝ ํญ์ด ์ปธ์ (AUC-ROC 17.5 ํ๋ฝ)
- real-time news๋ LLM detector ์ ์ฅ์์๋ ๊ทธ๋ด๋ฏํ์ง ์์ ๊ฒ์ผ๋ก ๋ณด์
- RAG ๊ธฐ๋ฐํ์ง ์์ ๊ฒฝ์ฐ adversarial attack์ ๋์ฑ ์ทจ์ฝ
- LLM์ changing entities(incld. names, locations, times), hallucinating events + making up details, mimicking typographical errors ๋ฑ ๋ค์ํ ๋ฐฉ์์ผ๋ก ์ง์ง ๋ด์ค๋ฅผ ์์
Personal note. ์๊ฐ์ด ํ๋ฆ์ ๋ฐ๋ฅธ ์ง์ ์ถฉ๋์ ์ผ๊ธฐ์ํค๋ ๋ฐ์ดํฐ์ ์์ฑ์ ๋์์ด ๋ ๊น ์ถ์ด์ ์ฝ์ด๋ดค์ต๋๋ค๋ง, ์๊ฐ๋ณด๋ค ์ฌ์ฌํ ๊ฒฐ๋ก ์ด๋ค์. (์๊ฐ ํ๋ฆ์ ๊ฐ์กฐํ ๊ฑด ์๋๊ณ , ๊ทธ๋ฅ fake news ์์ฑ์ธ๋ฏโฆ) ๊ฒฐ๊ตญ LLM์ ๋ ํ์ธ์๋ก fake ๊ฐ๋๊ฐ ์ฌํด์ง๋ ๊ฒ ๊ฐ๋ค๋ ๊ฒฐ๋ก ์ผ๋ก ์ ๋ฆฌํด๋ ๋ ๊ฒ ๊ฐ์ต๋๋ค.