Having Beer after Prayer? Measuring Cultural Bias in Large Language Models

August 16, 2024 2 minute read

Meta info.

Authors: Tarek Naous, Michael J. Ryan, Alan Ritter, Wei Xu
Paper: https://arxiv.org/pdf/2305.14456
Published: May 23, 2023
Code: https://github.com/tareknaous/camel
Conference: ACL2024

TL; DR

아랍-서구문화가 대조되는 entity와 natural occurring prompt 구성된 데이터셋 CAMeL을 제안하고, 이를 통해 사례연구한 결과 LLM이 서구문화권 entity에 편향되어 있음에 대한 우려

Problem States

multi-lingual이 되는 LM이라고 해도 문화적 뉘앙스를 고려하진 않아, 비서구권에서는 문화적 맥락에서 부적절한 생성 발생 `Figure 1`

Dataset Construction
- 대조 entity 구성 (20K) Figure 3, 4
  - type: 사람 이름, 음식/요리, 음료, 의류 아이템, 위치(도시), 문학 작가, 종교적 예배 장소, 스포츠 클럽
  - 패턴기반 entity 추출 from Wiki data + CommonCrawl
    - 필터링 수동,,
- naturally occurring prompt (600) Table 1
  - X에서 키워드 검색으로 추출
  - 문화적으로 의존성 있는 프롬프트(CAMeL-Co)와 문화적으로 독립적인 프롬프트(CAMeL-Ag)로 구분
  - human filtering + 익명화
Experiment
- backbone: 16개 LM
  - AraBERT, ARBERT, CAMeLBERT, MARBERT, and AraGPT2. Multilingual models include mBERT, XLM-R, BLOOM, GPT-3.5, GPT-4
  - 아랍 언어 특화 모델 포함
- evaluation
  - intrinsic: embedding distance or probability 등..
  - extrinsic: 감정분석, NER, 스토리생성 등
    - cloze-style text infilling task에서 아랍 문화적 맥락을 제대로 이해하지 못함을 확인

Effect

Story Generation: 아랍과 서양 이름을 가진 인물에 대한 이야기를 생성 Table 2
- 각 형용사에 대한 오즈비(Odds Ratio) 계산: 아랍 인물에 대한 이야기에서 해당 형용사가 서양 인물에 비해 더 많이 사용되는지 (OR이 높으면 해당 형용사가 서양 이름과 강한 연관성을 보인다고 가정) Figure 5
- 서구 바이어스: “wealthy,” “popular,” “intelligent”
- 아랍 바이어스: “poor,” “modest,” “traditional”
NER: ANERCorp(아랍 NER데이터셋)활용 finetuning하거나 ICL(5-shot) for GPT-style model
- 최대 20점 이상 아랍 NER을 더 못태깅함 (위치) Figure 6
sentiment analysis:
- 오탐률은 별 경향은 없었지만, 상대적으로 서구권 entity에 긍정성을 더 띔. Figure 6
text(entity) infilling Figure 7
- metric CBS: 서구권 편향 점수. 프롬프트에서 mask token 채울 때 LM이 아랍권보다 서구권 entity에 선호도를 측정
- prompt adaptation: 서구 편향 줄이기 위해
  - cultural token 추가 : special token으로 [Arab] 추가
  - fewshot에 아랍 entity 포함되지 않도록 처리
- 아무리 special token 준다고 한들 western entity에 편향
6 개의 사전학습 아랍 Corpus Analysis: OpenGRM을 사용해 4-gram LM 학습( 빈도수 기반 LM이므로 직관적 비교 가능) → CAMeL-Co에 대한 CBS 측정 Figure 8
- 아랍어더라도 서구 뉴스를 주로 다루는 등 Wikipedia와 같이 일반적으로 사용되는 소스를 조정 없이 그대로 사용할 경우 문화적으로 편향 없앤 LM 학습에는 적합하지 않을듯.
- 그나마 Twitter 데이터가 제일 나은 CBS 점수 획득

Personal note. 단일언어만을 비교한 부분 - cross-lingual setting도 충분히 문제니까.. 당연할지도? 한편으론 그렇다고 해도, 아무래도 한국어보다는 문화”권”으로 묶이는 아랍어가 더 적절한 대조군이라는 점은 납득할 수밖에. entity를 대조 기준으로 잡은 것도 유용하고 괜찮은 접근으로 보임.

편향이 있다를 보여주기 위해 특히 빈칸 채우기 잘 못하는 걸 보인 게, 일반적으로 확인하는 QA보다 쉽고 직관적이고 설득됨.그밖에 NLU/NLG task를 모두 포괄한 것도 적절한 접근 - 기존 QA task를 cloze style로 바꾸는 건 어려우려나? 상대적으로 쉬울지도? 어차피 이 논문도 추출한 entity가 wiki data -based라면..

entity든 뭐든 서구문화권에 바이어스 끼어있을 거라는 점은 되게 당연하지 않나? 결론도 심플하게 문화 바이어스를 고려한 리소스 구축인 점.. 뻔한 결과와 뻔한 주장을 어떻게 포장했을까? (약간 별건이지만) lingual bias를 다루면서 cultural context를 무시하는 것은 너무 편협한 연구가 될 것 같음.

주장을 관철하는 데에 일관성있고 군더더기 없는 충실한 연구: 데이터셋 구축을 포함하여 어떤 현상을 포착하기 위한 study라면 이런 흐름으로 구성하는게 타당해보임

실험이 풍부함: 충실한 설명 + appendix도. 제시한 task가 적절한 점, 기존 metric + 자체 metric » 일관된 결과, 실험 ablation에서 그치지 않고 뻔한 주장에 설득력을 더하기 위해 코퍼스 분석 결과를 추가한 흐름이 자연스러움

TL; DR

Problem States

multi-lingual이 되는 LM이라고 해도 문화적 뉘앙스를 고려하진 않아, 비서구권에서는 문화적 맥락에서 부적절한 생성 발생 Figure 1

Effect

multi-lingual이 되는 LM이라고 해도 문화적 뉘앙스를 고려하진 않아, 비서구권에서는 문화적 맥락에서 부적절한 생성 발생 `Figure 1`