Spotting LLMs With Binoculars: Zero-Shot Detection of Machine-Generated Text

January 30, 2024 less than 1 minute read

Meta info.

TL; DR

별도 학습이나 튜닝 없이 한 쌍의 pretrained LLM으로 간단히 계산만 하면 machine generated text를 탐지해내는 방법론 Binoculars 제안. 생성된 sample 90% 이상 탐지(pic1)

Untitled

Untitled 1

Untitled 2

Untitled 3

cross-perplexity: 간단하게 M1의 probability distribution에 M2의 log PPL(pic2)을 element-wise products. 즉, M1의 예측이 M2에 의해 어떻게 판단되는지(how surprising) weighting 하는 방식. (pic3)
- e.g. M1이 어느 token을 높은 확률로 예측했지만, M2는 낮은 PPL을 주면(log PPL 은 커지는), 결론적으로 cross-perplexity 값은 높아지고, 이는 곧 M2 입장에서는 M1의 예측이 “surprising”
Binoculars score (B): perplexity를 crosss-perplexity nomalization한 버전. (pic4)