Questioning the Survey Responses of Large Language Models

November 13, 2024 less than 1 minute read

Meta info.

Authors: Ricardo Dominguez-Olmedo, Moritz Hardt, Celestine Mendler-Dünner
Paper: https://openreview.net/pdf?id=Oo7dlLgqQX
Published: September 26, 2024
Conference: NeurIPS2024

TL; DR

labeled 응답을 선택하게 하는 문제(=survey)에서, 그 순서 무작위로 주면 응답도 결국 무작위에 가깝더라

Background

광범위한 분야에서 LLM을 Survey 도구로 적극적으로 활용

Problem States

LLM의 설문 응답에 대한 편향 간과

Suggestions

미국 인구 조사국의 미국 지역사회 조사(ACS) 기반, 표준 프롬프트(`pic2`) 사용하여 43개의 LLM 평가

Effects

results:
- 모델 응답이 순서/label에 편향 (e.g. A로 표시된 응답에 편향, Figure 3)
- 앞선 결과에 따라 순서를 랜덤으로 섞으면 LLM이 scale이나 pre-training data size 무시하고 균일하게 random한 응답 해버림 (Figure 4)
- LLM은 보려는 Survey의 총 통계가 uniform에 가까운 subgroups을 (가장) 더 잘나타내고, 이에 따라 모델 alignment에 대한 잘못된 해석으로 연결될 문제가 있다. (Figure 5/6)

Personal note. 당연한 것 같기도 한데 labeled 응답을 선택하게 하는 문제(=survey)에서, 그 순서 무작위로 주면 응답도 결국 무작위에 가깝더라는 얘긴데, 확실히 LLM을 연구하지 않는 일반 사용자가 간과할 수 있는 편향에 대해서는 경계해봄직 하네요. 우리도 선지 주고 고르게 하는 문제를 풀 때 유념하는게 좋을 것 같아요. 디테일보다는 결론만 취해도 될 것 같습니다.

TL; DR

Background

광범위한 분야에서 LLM을 Survey 도구로 적극적으로 활용

Problem States

LLM의 설문 응답에 대한 편향 간과

Suggestions

미국 인구 조사국의 미국 지역사회 조사(ACS) 기반, 표준 프롬프트(pic2) 사용하여 43개의 LLM 평가

Effects

미국 인구 조사국의 미국 지역사회 조사(ACS) 기반, 표준 프롬프트(`pic2`) 사용하여 43개의 LLM 평가